全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
245: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 11:36:00 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/245
246: 名無しさん@お腹いっぱい。 [sage] 2010/05/01(土) 16:32:06 これはなんでこんな速いんだ 転置インデックスだけの速さじゃないよね http://mevius.5ch.net/test/read.cgi/unix/1176807372/246
247: 名無しさん@お腹いっぱい。 [sage] 2010/05/19(水) 20:34:25 hyper estraierで3000報の論文を検索しまくったら 予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/247
248: 名無しさん@お腹いっぱい。 [sage] 2010/05/21(金) 21:40:15 公式メーリングリストは敷居が高いのと、 若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 windows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/248
249: 名無しさん@お腹いっぱい。 [sage] 2010/05/24(月) 12:53:33 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 いろんな方法があってC,Java,Rubu,Perl,Pythonとか ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/249
250: 名無しさん@お腹いっぱい。 [sage] 2010/05/26(水) 02:11:25 >>249 248です。 ありがとうございました。 まだわかっていない部分があるので、 まずはwebクローラーを使って試行してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/250
251: 名無しさん@お腹いっぱい。 [sage] 2010/06/01(火) 20:00:23 数が増えるとフラッシュしまくりで速度低下するんですが。 解決方法ありますか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/251
252: 名無しさん@お腹いっぱい。 [sage] 2010/06/02(水) 19:06:56 複数ファイルの書庫をディレクトリと認識するエンジンありますか http://mevius.5ch.net/test/read.cgi/unix/1176807372/252
253: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 13:20:31 >>252 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/253
254: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 16:48:10 サンクス http://mevius.5ch.net/test/read.cgi/unix/1176807372/254
255: 名無しさん@お腹いっぱい。 [sage] 2010/06/04(金) 20:57:30 【岩波書店】 Google問題の核心 ―― 開かれた検索システムのために ―― 牧野 二郎 http://www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ. Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問 題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決 するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提 案する. http://mevius.5ch.net/test/read.cgi/unix/1176807372/255
256: 名無しさん@お腹いっぱい。 [sage] 2010/06/05(土) 22:13:46 >>249 結局、SQLコマンドでデータを取ってきて、 インデックス作成するプログラムを作りました。 ありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/256
257: 名無しさん@お腹いっぱい。 [sage] 2010/06/14(月) 16:45:12 すみません、教えてください。 Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/257
258: 名無しさん@お腹いっぱい。 [sage] 2010/06/28(月) 10:43:43 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 他に http://mevius.5ch.net/test/read.cgi/unix/1176807372/258
259: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 03:31:58 引き継いで開発してくれる有志っていないの? 低スキルなので、私はだめだけど.. http://mevius.5ch.net/test/read.cgi/unix/1176807372/259
260: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 04:16:09 >>259 なんか問題あるっけ? TCに移行すればいいじゃない。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/260
261: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 17:19:59 TCって、KVSじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/261
262: 名無しさん@お腹いっぱい。 [sage] 2010/08/15(日) 12:35:46 TCは全文検索できるよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/262
263: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:13:39 最近使い始めたものです。 簡便書式で検索した場合、 例えば、「a*」とした場合と「ab*」とした場合に なぜか「ab*」の方がヒット件数が多くなります。 一応、公式サイト見てきましたが、 それらしいことは書いてありませんでした。 なにか心当たりがある方がいれば、 教えてください。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/263
264: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:16:16 >>262 データ量多くなるとまともに使えなくなるけどなw http://mevius.5ch.net/test/read.cgi/unix/1176807372/264
265: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 01:38:18 >>264 mixiの全データ検索に使用されているからそれはないのでは? なにか運用間違えているとか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/265
266: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 02:49:10 TCの全文検索ってQ-GRAMインデックスのことだろ? データ量増えるとホント糞みたいに重くなって使い物にならんぞ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/266
267: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 19:36:40 作ってる本人も遅いって言ってた気がする。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/267
268: 265 [sage] 2010/09/23(木) 20:30:00 mixiでTCが使われているのは全文検索じゃなかったね。ゴメン http://mevius.5ch.net/test/read.cgi/unix/1176807372/268
269: 名無しさん@お腹いっぱい。 [sage] 2010/10/07(木) 04:14:16 >>263 N-gramのN=2とかが関係してるんじゃない? わかち書きを変えてみると違う結果になると思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/269
270: 名無しさん@お腹いっぱい。 [sage] 2010/10/09(土) 17:47:15 >>269 レス、ありがとうございました。 とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで 検索してみましたが、結果の数は変わりませんでした。 なんにしろ、N-gram関連を勉強してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/270
271: 名無しさん@お腹いっぱい。 [sage] 2010/10/11(月) 12:23:08 >>263 wildmax の設定でいくらか調整できると思う。 けれど一文字で検索する場合には、N-gramインデックスでは あまり良い結果出せないんじゃないかな。 269が書いた通り、2-gramに対し一文字で検索するため、 「ab」を含む文書を取得する 「a」で始まる2-gramをwildmax個拾って、それらを含む文書を 取得する(2gramの出現頻度とかは見てない) という内部動作なんだろうなと、前に思った。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/271
272: 名無しさん@お腹いっぱい。 [sage] 2010/10/27(水) 20:48:38 >>271 遅レスすいません。さっき、気づきました。 詳細な情報ありがとうございました。 とりあえず、ソースを読んでみましたが、 QDBMの中身も把握してないと理解 できなさそうなので、時間のあるときに 見てみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/272
273: 名無しさん@お腹いっぱい。 [sage] 2010/10/30(土) 15:19:33 誰かこの問題をHyper Estraier でも起きないか検証してくれw ttp://uinyan.com/windows7_critical_bug/ http://mevius.5ch.net/test/read.cgi/unix/1176807372/273
274: 名無しさん@お腹いっぱい。 [sage] 2010/11/16(火) 15:09:15 windowsですが、DesktopHEの他に、似たソフトってないですか? もしくはどなたか改造されていたり。 フォルダ順ができるだけでも楽になるのですが・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/274
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 59 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.011s