全文検索エンジン Hyper Estraier 2 (333レス)
1-

245: 2010/04/14(水)11:36 AAS
TokyoCabinetは検索エンジンというよりそのバックエンド、かな?
246: 2010/05/01(土)16:32 AAS
これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね
247: 2010/05/19(水)20:34 AAS
hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるw
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。
248: 2010/05/21(金)21:40 AAS
公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか?
検索してみたのですが、windows環境での方法は
見つかりませんでした。
省6
249
(2): 2010/05/24(月)12:53 AAS
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
外部リンク[html]:hyperestraier.sourceforge.net

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
250: 2010/05/26(水)02:11 AAS
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
251
(2): 2010/06/01(火)20:00 AAS
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。
252
(1): 2010/06/02(水)19:06 AAS
複数ファイルの書庫をディレクトリと認識するエンジンありますか
253: 2010/06/03(木)13:20 AAS
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
254: 2010/06/03(木)16:48 AAS
サンクス
255: 2010/06/04(金)20:57 AAS
AA省
256: 2010/06/05(土)22:13 AAS
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
257: 2010/06/14(月)16:45 AAS
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
258: 2010/06/28(月)10:43 AAS
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
259
(1): 2010/08/05(木)03:31 AAS
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..
260: 2010/08/05(木)04:16 AAS
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。
261: 2010/08/05(木)17:19 AAS
TCって、KVSじゃないの?
262
(1): 2010/08/15(日)12:35 AAS
TCは全文検索できるよ。
263
(2): 2010/09/22(水)22:13 AAS
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。
264
(1): 2010/09/22(水)22:16 AAS
>>262
データ量多くなるとまともに使えなくなるけどなw
265
(1): 2010/09/23(木)01:38 AAS
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
266: 2010/09/23(木)02:49 AAS
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
267: 2010/09/23(木)19:36 AAS
作ってる本人も遅いって言ってた気がする。
268: 265 2010/09/23(木)20:30 AAS
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
269
(1): 2010/10/07(木)04:14 AAS
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
270: 2010/10/09(土)17:47 AAS
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
271
(1): 2010/10/11(月)12:23 AAS
>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。
272: 2010/10/27(水)20:48 AAS
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
273: 2010/10/30(土)15:19 AAS
誰かこの問題をHyper Estraier でも起きないか検証してくれw
外部リンク:uinyan.com
274: 2010/11/16(火)15:09 AAS
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
1-
あと 59 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.021s