全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
抽出解除 レス栞
231(1): 2010/03/25(木)07:29 AAS
 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 
 このソフトはどっちですか。 
 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 
 文字単位では日本語一文字と英語一文字の価値が同等になりますが 
 実際の情報量は日本語の方が大きいです。 
 英語の2文字か3文字くらいの情報量がありそう。 
 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 
238(1): 2010/03/26(金)14:41 AAS
 >>231 
 外部リンク[html]:hyperestraier.sourceforge.net 
 バイト単位ではなく文字単位2-gram 
 ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 
 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 
  
 こんぐらい教えてやれよ、無能なやつばっかだな 
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.899s*