全文検索エンジン Hyper Estraier 2 (333レス)
前次1-
抽出解除 レス栞

231
(1): 2010/03/25(木)07:29 AAS
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
238
(1): 2010/03/26(金)14:41 AAS
>>231
外部リンク[html]:hyperestraier.sourceforge.net
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.899s*