全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
254: 2010/06/03(木)16:48 AAS
サンクス
255: 2010/06/04(金)20:57 AAS
AA省
256: 2010/06/05(土)22:13 AAS
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
257: 2010/06/14(月)16:45 AAS
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
258: 2010/06/28(月)10:43 AAS
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
259(1): 2010/08/05(木)03:31 AAS
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..
260: 2010/08/05(木)04:16 AAS
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。
261: 2010/08/05(木)17:19 AAS
TCって、KVSじゃないの?
262(1): 2010/08/15(日)12:35 AAS
TCは全文検索できるよ。
263(2): 2010/09/22(水)22:13 AAS
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。
264(1): 2010/09/22(水)22:16 AAS
>>262
データ量多くなるとまともに使えなくなるけどなw
265(1): 2010/09/23(木)01:38 AAS
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
266: 2010/09/23(木)02:49 AAS
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
267: 2010/09/23(木)19:36 AAS
作ってる本人も遅いって言ってた気がする。
268: 265 2010/09/23(木)20:30 AAS
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
269(1): 2010/10/07(木)04:14 AAS
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
270: 2010/10/09(土)17:47 AAS
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
271(1): 2010/10/11(月)12:23 AAS
>>263
wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。
269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)
という内部動作なんだろうなと、前に思った。
272: 2010/10/27(水)20:48 AAS
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
273: 2010/10/30(土)15:19 AAS
誰かこの問題をHyper Estraier でも起きないか検証してくれw
外部リンク:uinyan.com
274: 2010/11/16(火)15:09 AAS
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
275: 2011/02/10(木)08:37 AAS
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
276(1): 2011/02/10(木)09:36 AAS
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
277(1): 2011/02/10(木)13:07 AAS
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
278: 2011/02/10(木)13:47 AAS
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間 -> クロール方法に依存
マニュアルをちゃんと読んでから検討したほうがいいよ。
279: 2011/02/10(木)23:56 AAS
最近のMinGWでコンパイルに成功したかたいますか?
ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します
そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました
なにかポインタがあれば教えてください
280: 2011/04/14(木)21:08 AAS
大文字小文字を区別して検索できるようにして欲しい
281(2): 2011/04/17(日)12:28 AAS
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
282(1): 281 2011/04/17(日)12:31 AAS
>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
283: 2011/05/07(土)18:02 AAS
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?
自分は上記のような感じで
ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。
オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
上下前次1-新書関写板覧索設栞歴
あと 50 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.028s