全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
231(1): 2010/03/25(木)07:29 AAS
 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 
 このソフトはどっちですか。 
 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 
 文字単位では日本語一文字と英語一文字の価値が同等になりますが 
 実際の情報量は日本語の方が大きいです。 
 英語の2文字か3文字くらいの情報量がありそう。 
 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 
232: 2010/03/25(木)07:31 AAS
 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ 
  
 # 思いついた単語を羅列してるだけみたいだけど在日? 
233: 2010/03/25(木)10:19 AAS
 脊髄反射で在日とか言うネトウヨ? 
234: 2010/03/26(金)11:17 AAS
 ということにしたいのですね。 
235: 2010/03/26(金)12:04 AAS
 いいえ、自分が理解できないだけなのを認めたくないだけです。 
236: 2010/03/26(金)13:35 AAS
 ということにしたいのですね。 
237: 2010/03/26(金)13:56 AAS
 はい。 
238(1): 2010/03/26(金)14:41 AAS
 >>231 
 外部リンク[html]:hyperestraier.sourceforge.net 
 バイト単位ではなく文字単位2-gram 
 ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 
 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 
  
 こんぐらい教えてやれよ、無能なやつばっかだな 
239: 2010/03/26(金)15:22 AAS
 分かってんならすぐに教えてやれよ、ノロマだな 
  
 という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? 
 もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 
  
 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 
 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 
 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし 
 ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 
240: 2010/03/26(金)20:42 AAS
 サンクス 
 いまローカルでgrep手助け用検索開発してる 
 もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 
241: 2010/03/26(金)23:42 AAS
 ちょwまて 
 漏れなしバイナリ検索ならgrepで十分だろ 
 インデックス化するメリットないぞ 
242: 2010/03/26(金)23:58 AAS
 数ギガ、数十ギガとデータあったらどうする? 
243: 2010/03/27(土)00:22 AAS
 もうその話あきた。よそでやれ 
244: 2010/04/14(水)09:33 AAS
 mixiで公開してる東京なんとか 
 とかいう奴はこれの上位版? 
245: 2010/04/14(水)11:36 AAS
 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? 
246: 2010/05/01(土)16:32 AAS
 これはなんでこんな速いんだ 
 転置インデックスだけの速さじゃないよね 
247: 2010/05/19(水)20:34 AAS
 hyper estraierで3000報の論文を検索しまくったら 
 予想外に研究が進んで、凶授どもが俺のことを 
 天才と勘違いしてやがるw 
 こんなダメ人間に希望を与えてくれた作者氏に 
 頭が下がる思いです。 
248: 2010/05/21(金)21:40 AAS
 公式メーリングリストは敷居が高いのと、 
 若干過疎気味なので、こちらで質問させてください。 
  
 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は 
 インデックスを作成し、検索できるようになりました。 
 後は掲示板のデータベースの検索が残っています。 
 SQLという言語で読み書きしてるらしいのですが、 
 hyper estraierでデータベースのインデックスを 
 作成するにはどうすればよいのでしょうか? 
 検索してみたのですが、windows環境での方法は 
 見つかりませんでした。
省6
249(2): 2010/05/24(月)12:53 AAS
 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 
 外部リンク[html]:hyperestraier.sourceforge.net 
  
 うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 
 いろんな方法があってC,Java,Rubu,Perl,Pythonとか 
 ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 
 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 
250: 2010/05/26(水)02:11 AAS
 >>249 
 248です。 
 ありがとうございました。 
 まだわかっていない部分があるので、 
 まずはwebクローラーを使って試行してみます。 
251(2): 2010/06/01(火)20:00 AAS
 数が増えるとフラッシュしまくりで速度低下するんですが。 
 解決方法ありますか。 
252(1): 2010/06/02(水)19:06 AAS
 複数ファイルの書庫をディレクトリと認識するエンジンありますか 
253: 2010/06/03(木)13:20 AAS
 >>252 
 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 
254: 2010/06/03(木)16:48 AAS
 サンクス 
255: 2010/06/04(金)20:57 AAS
AA省
256: 2010/06/05(土)22:13 AAS
 >>249 
 結局、SQLコマンドでデータを取ってきて、 
 インデックス作成するプログラムを作りました。 
 ありがとうございました。 
257: 2010/06/14(月)16:45 AAS
 すみません、教えてください。 
 Hyper Estraierを使い始めましたが、 
 Hyper Estraierで文章の中身だけでなく、 
 ファイル名やファイルパスも検索のキーワードに 
 同時にヒットさせたいです。 
 インデックスの作成や、検索時になにか 
 オプションで指定するなど、なにか方法がありますか。 
 よろしくお願いします。 
258: 2010/06/28(月)10:43 AAS
 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 
 他に 
259(1): 2010/08/05(木)03:31 AAS
 引き継いで開発してくれる有志っていないの? 
 低スキルなので、私はだめだけど.. 
260: 2010/08/05(木)04:16 AAS
 >>259 
 なんか問題あるっけ? 
 TCに移行すればいいじゃない。 
上下前次1-新書関写板覧索設栞歴
あと 73 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.017s