全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.025s