全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
256: 2010/06/05(土)22:13 AAS
 >>249 
 結局、SQLコマンドでデータを取ってきて、 
 インデックス作成するプログラムを作りました。 
 ありがとうございました。 
257: 2010/06/14(月)16:45 AAS
 すみません、教えてください。 
 Hyper Estraierを使い始めましたが、 
 Hyper Estraierで文章の中身だけでなく、 
 ファイル名やファイルパスも検索のキーワードに 
 同時にヒットさせたいです。 
 インデックスの作成や、検索時になにか 
 オプションで指定するなど、なにか方法がありますか。 
 よろしくお願いします。 
258: 2010/06/28(月)10:43 AAS
 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 
 他に 
259(1): 2010/08/05(木)03:31 AAS
 引き継いで開発してくれる有志っていないの? 
 低スキルなので、私はだめだけど.. 
260: 2010/08/05(木)04:16 AAS
 >>259 
 なんか問題あるっけ? 
 TCに移行すればいいじゃない。 
261: 2010/08/05(木)17:19 AAS
 TCって、KVSじゃないの? 
262(1): 2010/08/15(日)12:35 AAS
 TCは全文検索できるよ。 
263(2): 2010/09/22(水)22:13 AAS
 最近使い始めたものです。 
 簡便書式で検索した場合、 
 例えば、「a*」とした場合と「ab*」とした場合に 
 なぜか「ab*」の方がヒット件数が多くなります。 
 一応、公式サイト見てきましたが、 
 それらしいことは書いてありませんでした。 
 なにか心当たりがある方がいれば、 
 教えてください。 
 よろしくお願いします。 
264(1): 2010/09/22(水)22:16 AAS
 >>262 
 データ量多くなるとまともに使えなくなるけどなw 
265(1): 2010/09/23(木)01:38 AAS
 >>264 
 mixiの全データ検索に使用されているからそれはないのでは? 
 なにか運用間違えているとか? 
266: 2010/09/23(木)02:49 AAS
 TCの全文検索ってQ-GRAMインデックスのことだろ? 
 データ量増えるとホント糞みたいに重くなって使い物にならんぞ。 
267: 2010/09/23(木)19:36 AAS
 作ってる本人も遅いって言ってた気がする。 
268: 265 2010/09/23(木)20:30 AAS
 mixiでTCが使われているのは全文検索じゃなかったね。ゴメン 
269(1): 2010/10/07(木)04:14 AAS
 >>263 
 N-gramのN=2とかが関係してるんじゃない? 
 わかち書きを変えてみると違う結果になると思う。 
270: 2010/10/09(土)17:47 AAS
 >>269 
 レス、ありがとうございました。 
 とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで 
 検索してみましたが、結果の数は変わりませんでした。 
 なんにしろ、N-gram関連を勉強してみます。 
271(1): 2010/10/11(月)12:23 AAS
 >>263 
  
 wildmax の設定でいくらか調整できると思う。 
 けれど一文字で検索する場合には、N-gramインデックスでは 
 あまり良い結果出せないんじゃないかな。 
  
 269が書いた通り、2-gramに対し一文字で検索するため、 
 「ab」を含む文書を取得する 
 「a」で始まる2-gramをwildmax個拾って、それらを含む文書を 
 取得する(2gramの出現頻度とかは見てない) 
  
 という内部動作なんだろうなと、前に思った。 
272: 2010/10/27(水)20:48 AAS
 >>271 
 遅レスすいません。さっき、気づきました。 
 詳細な情報ありがとうございました。 
 とりあえず、ソースを読んでみましたが、 
 QDBMの中身も把握してないと理解 
 できなさそうなので、時間のあるときに 
 見てみます。 
273: 2010/10/30(土)15:19 AAS
 誰かこの問題をHyper Estraier でも起きないか検証してくれw 
 外部リンク:uinyan.com 
274: 2010/11/16(火)15:09 AAS
 windowsですが、DesktopHEの他に、似たソフトってないですか? 
 もしくはどなたか改造されていたり。 
 フォルダ順ができるだけでも楽になるのですが・・・ 
275: 2011/02/10(木)08:37 AAS
 ファイル名のみ、または、最初の数行だけをクロールすることは可能? 
 全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。 
276(1): 2011/02/10(木)09:36 AAS
 ”インデックスの容量”を心配しているの? 
 だとしたら杞憂だと思うんだけど、もしかして組込み系? 
277(1): 2011/02/10(木)13:07 AAS
 >>276 
 いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。 
 なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。 
278: 2011/02/10(木)13:47 AAS
 >>277 
 インデックスの容量 -> テキスト情報量に依存 
 クロール時間    -> クロール方法に依存 
  
 マニュアルをちゃんと読んでから検討したほうがいいよ。
279: 2011/02/10(木)23:56 AAS
 最近のMinGWでコンパイルに成功したかたいますか? 
  
 ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、 
 実行すると異郷終了します 
  
 そもそもqdbmのmake checkでvtestが失敗するようで、 
 コンパイルできないのが正しいんでしょうか? 
 一応バイナリ版のqdbmを持ってきて実行しても 
 やはりインデックス作成で異常終了してしまいました 
  
 なにかポインタがあれば教えてください
280: 2011/04/14(木)21:08 AAS
 大文字小文字を区別して検索できるようにして欲しい 
281(2): 2011/04/17(日)12:28 AAS
 インデックスがでかくなってくると速度落ちないですか? 
 回避する方法ありますか? 
282(1): 281 2011/04/17(日)12:31 AAS
 >>251も自分だ。10ヶ月ほど前にも書き込んでたが。 
 解決策見つからず。 
283: 2011/05/07(土)18:02 AAS
 >>251,281-282 
 この遅くなるって、 
 c:\hyperestraier\estcmd: INFO: flushing index words: name=index ... 
 ってでてディスク凄いアクセスするようになって遅くなって感じですか? 
  
 自分は上記のような感じで 
  
 ファイル数12500、総サイズ1.33G程度のHTMLファイルを 
 スキャンし終わるまで14分位かかってしまいます。 
  
 オプションとしては次のようにしているのですが・・・ 
 gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
284: 2011/05/11(水)20:07 AAS
 もう見てる人居ないんだろうか 
285: 2011/05/11(水)20:21 AAS
 見てるけど、開発が止まっちゃってて新しい話題がないよなー 
上下前次1-新書関写板覧索設栞歴
あと 48 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.019s