全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
254: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 16:48:10 サンクス http://mevius.5ch.net/test/read.cgi/unix/1176807372/254
255: 名無しさん@お腹いっぱい。 [sage] 2010/06/04(金) 20:57:30 【岩波書店】 Google問題の核心 ―― 開かれた検索システムのために ―― 牧野 二郎 http://www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ. Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問 題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決 するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提 案する. http://mevius.5ch.net/test/read.cgi/unix/1176807372/255
256: 名無しさん@お腹いっぱい。 [sage] 2010/06/05(土) 22:13:46 >>249 結局、SQLコマンドでデータを取ってきて、 インデックス作成するプログラムを作りました。 ありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/256
257: 名無しさん@お腹いっぱい。 [sage] 2010/06/14(月) 16:45:12 すみません、教えてください。 Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/257
258: 名無しさん@お腹いっぱい。 [sage] 2010/06/28(月) 10:43:43 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 他に http://mevius.5ch.net/test/read.cgi/unix/1176807372/258
259: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 03:31:58 引き継いで開発してくれる有志っていないの? 低スキルなので、私はだめだけど.. http://mevius.5ch.net/test/read.cgi/unix/1176807372/259
260: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 04:16:09 >>259 なんか問題あるっけ? TCに移行すればいいじゃない。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/260
261: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 17:19:59 TCって、KVSじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/261
262: 名無しさん@お腹いっぱい。 [sage] 2010/08/15(日) 12:35:46 TCは全文検索できるよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/262
263: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:13:39 最近使い始めたものです。 簡便書式で検索した場合、 例えば、「a*」とした場合と「ab*」とした場合に なぜか「ab*」の方がヒット件数が多くなります。 一応、公式サイト見てきましたが、 それらしいことは書いてありませんでした。 なにか心当たりがある方がいれば、 教えてください。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/263
264: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:16:16 >>262 データ量多くなるとまともに使えなくなるけどなw http://mevius.5ch.net/test/read.cgi/unix/1176807372/264
265: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 01:38:18 >>264 mixiの全データ検索に使用されているからそれはないのでは? なにか運用間違えているとか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/265
266: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 02:49:10 TCの全文検索ってQ-GRAMインデックスのことだろ? データ量増えるとホント糞みたいに重くなって使い物にならんぞ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/266
267: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 19:36:40 作ってる本人も遅いって言ってた気がする。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/267
268: 265 [sage] 2010/09/23(木) 20:30:00 mixiでTCが使われているのは全文検索じゃなかったね。ゴメン http://mevius.5ch.net/test/read.cgi/unix/1176807372/268
269: 名無しさん@お腹いっぱい。 [sage] 2010/10/07(木) 04:14:16 >>263 N-gramのN=2とかが関係してるんじゃない? わかち書きを変えてみると違う結果になると思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/269
270: 名無しさん@お腹いっぱい。 [sage] 2010/10/09(土) 17:47:15 >>269 レス、ありがとうございました。 とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで 検索してみましたが、結果の数は変わりませんでした。 なんにしろ、N-gram関連を勉強してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/270
271: 名無しさん@お腹いっぱい。 [sage] 2010/10/11(月) 12:23:08 >>263 wildmax の設定でいくらか調整できると思う。 けれど一文字で検索する場合には、N-gramインデックスでは あまり良い結果出せないんじゃないかな。 269が書いた通り、2-gramに対し一文字で検索するため、 「ab」を含む文書を取得する 「a」で始まる2-gramをwildmax個拾って、それらを含む文書を 取得する(2gramの出現頻度とかは見てない) という内部動作なんだろうなと、前に思った。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/271
272: 名無しさん@お腹いっぱい。 [sage] 2010/10/27(水) 20:48:38 >>271 遅レスすいません。さっき、気づきました。 詳細な情報ありがとうございました。 とりあえず、ソースを読んでみましたが、 QDBMの中身も把握してないと理解 できなさそうなので、時間のあるときに 見てみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/272
273: 名無しさん@お腹いっぱい。 [sage] 2010/10/30(土) 15:19:33 誰かこの問題をHyper Estraier でも起きないか検証してくれw ttp://uinyan.com/windows7_critical_bug/ http://mevius.5ch.net/test/read.cgi/unix/1176807372/273
274: 名無しさん@お腹いっぱい。 [sage] 2010/11/16(火) 15:09:15 windowsですが、DesktopHEの他に、似たソフトってないですか? もしくはどなたか改造されていたり。 フォルダ順ができるだけでも楽になるのですが・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/274
275: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 08:37:50 ファイル名のみ、または、最初の数行だけをクロールすることは可能? 全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/275
276: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 09:36:59 ”インデックスの容量”を心配しているの? だとしたら杞憂だと思うんだけど、もしかして組込み系? http://mevius.5ch.net/test/read.cgi/unix/1176807372/276
277: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:07:41 >>276 いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。 なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/277
278: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:47:37 >>277 インデックスの容量 -> テキスト情報量に依存 クロール時間 -> クロール方法に依存 マニュアルをちゃんと読んでから検討したほうがいいよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/278
279: 名無しさん@お腹いっぱい。 [] 2011/02/10(木) 23:56:21 最近のMinGWでコンパイルに成功したかたいますか? ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、 実行すると異郷終了します そもそもqdbmのmake checkでvtestが失敗するようで、 コンパイルできないのが正しいんでしょうか? 一応バイナリ版のqdbmを持ってきて実行しても やはりインデックス作成で異常終了してしまいました なにかポインタがあれば教えてください http://mevius.5ch.net/test/read.cgi/unix/1176807372/279
280: 名無しさん@お腹いっぱい。 [sage] 2011/04/14(木) 21:08:55.94 大文字小文字を区別して検索できるようにして欲しい http://mevius.5ch.net/test/read.cgi/unix/1176807372/280
281: 名無しさん@お腹いっぱい。 [sage] 2011/04/17(日) 12:28:30.18 インデックスがでかくなってくると速度落ちないですか? 回避する方法ありますか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/281
282: 281 [] 2011/04/17(日) 12:31:21.73 >>251も自分だ。10ヶ月ほど前にも書き込んでたが。 解決策見つからず。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/282
283: 名無しさん@お腹いっぱい。 [sage] 2011/05/07(土) 18:02:40.44 >>251,281-282 この遅くなるって、 c:\hyperestraier\estcmd: INFO: flushing index words: name=index ... ってでてディスク凄いアクセスするようになって遅くなって感じですか? 自分は上記のような感じで ファイル数12500、総サイズ1.33G程度のHTMLファイルを スキャンし終わるまで14分位かかってしまいます。 オプションとしては次のようにしているのですが・・・ gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400 http://mevius.5ch.net/test/read.cgi/unix/1176807372/283
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 50 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.029s