全文検索エンジン Hyper Estraier 2 (333レス)
1-

268: 265 2010/09/23(木)20:30 AAS
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
269
(1): 2010/10/07(木)04:14 AAS
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
270: 2010/10/09(土)17:47 AAS
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
271
(1): 2010/10/11(月)12:23 AAS
>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。
272: 2010/10/27(水)20:48 AAS
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
273: 2010/10/30(土)15:19 AAS
誰かこの問題をHyper Estraier でも起きないか検証してくれw
外部リンク:uinyan.com
274: 2010/11/16(火)15:09 AAS
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
275: 2011/02/10(木)08:37 AAS
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
276
(1): 2011/02/10(木)09:36 AAS
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
277
(1): 2011/02/10(木)13:07 AAS
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
278: 2011/02/10(木)13:47 AAS
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。
279: 2011/02/10(木)23:56 AAS
最近のMinGWでコンパイルに成功したかたいますか?

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください
280: 2011/04/14(木)21:08 AAS
大文字小文字を区別して検索できるようにして欲しい
281
(2): 2011/04/17(日)12:28 AAS
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
282
(1): 281 2011/04/17(日)12:31 AAS
>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
283: 2011/05/07(土)18:02 AAS
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
284: 2011/05/11(水)20:07 AAS
もう見てる人居ないんだろうか
285: 2011/05/11(水)20:21 AAS
見てるけど、開発が止まっちゃってて新しい話題がないよなー
286: 2011/05/12(木)05:31 AAS
一応チェックリストには入れてる
287: 2011/05/13(金)19:03 AAS
namazu と これくらいかー?
使える全文検索は。
288: 2011/07/13(水)06:07 AAS
luceneで決まりだろ
289: 2011/07/13(水)16:35 AAS
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
290: 2011/07/19(火)00:44 AAS
今はkyotoだっけtokyoだっけ?
291
(1): 2011/07/19(火)12:55 AAS
作者がmixiからgoogleにいったよね
292: 2011/07/19(火)14:38 AAS
>>291
へえ、ついに検索の総本山へか
293: 2011/08/13(土)15:26 AAS
え?自分で会社作ってたんじゃなかったっけ??
294: 2011/08/15(月)10:45 AAS
失敗したんだって
295: 2011/08/28(日)22:41 AAS
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
外部リンク:hyperestraier.sourceforge.net
296: 2011/09/18(日)23:41 AAS
P2Pでクローラーを動かしてます。

特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
297: 296  2011/09/18(日)23:42 AAS
お願いします
1-
あと 36 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.014s