全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
231(1): 2010/03/25(木)07:29 AAS
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
上下前次1-新書関写板覧索設栞歴
あと 102 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.004s