全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
202: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 12:31:28 >>201 >>毎日巡回するたびにdat2html走らせてるの? そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。 ログは8GBくらいある。datファイルは定期的に削除している。 ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/202
203: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 23:28:31 >>202 うちもログは6Gぐらいあります。 全部変換するとなると15gぐらいいきそうですよねorz Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。 Threadsearchと併用しないと駄目ですかね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/203
204: 名無しさん@お腹いっぱい。 [sage] 2009/11/27(金) 00:40:30 XREAで設置しようとしたけど、インストールの段階で躓いたorz cannot find -liconvとかでてきてるし・・・ libiconvの入れ方に問題があるのかなぁ・・・。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/204
205: 名無しさん@お腹いっぱい。 [] 2010/01/07(木) 21:28:29 某サイト丸ごと吸い上げようと、 クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった... 種文書を全部吸い上げてからインデックスするとは知らんかった。 seeddepth1〜2でよさそうね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/205
206: 名無しさん@お腹いっぱい。 [sage] 2010/01/15(金) 16:12:43 Hyper Estraier のwinを使っている方に質問です。 当方初心者。 インストール、インデックス作成まではできました。なんとか。 しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。 replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/206
207: 名無しさん@お腹いっぱい。 [sage] 2010/01/16(土) 02:43:00 >>206 win版も使ったことはありますが、それだけでは何がなんだか分かりません。 estcmd inform casket は通りますか? Hyper Estraier の画面は出るのですか? 表示のどこかに不満があるのですか? どうなって欲しくて、現状どうなっているのか書いてください。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/207
208: 名無しさん@お腹いっぱい。 [sage] 2010/01/18(月) 15:45:09 ゴミのような2chのログも、こいつを使うと宝の山になる。 はらしょー http://mevius.5ch.net/test/read.cgi/unix/1176807372/208
209: 名無しさん@お腹いっぱい。 [] 2010/02/05(金) 14:01:07 Hyper Estraier 1.4.10(Win)を利用している者です。 ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか? 今、その状態です。 検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。 すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。 どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか? これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/209
210: 名無しさん@お腹いっぱい。 [sage] 2010/02/05(金) 22:04:05 文字コードの問題じゃね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/210
211: 名無しさん@お腹いっぱい。 [sage] 2010/02/07(日) 17:19:49 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/211
212: 209 [] 2010/02/08(月) 08:11:35 >>211 ブラウザは、他にオペラも試しました。同じ結果でした。 クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。 >>210 仮に文字コードの問題なら、対処法はありますでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/212
213: 名無しさん@お腹いっぱい。 [sage] 2010/02/08(月) 20:12:30 まずは、本当に文字コードの問題かどうかを確かめるべきです フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います http://mevius.5ch.net/test/read.cgi/unix/1176807372/213
214: 209,212 [] 2010/02/09(火) 08:13:55 >>213 >フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し やってみました。ダメでした。相変わらずジャンプしてくれません。 考えるに、estseek.conf の replace設定なのかな、と。 これについては、自分でも自信がなかったので、下記に示します。 当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: ^file:///c:\server\{{!}}http://127.0.0.1/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− このような記載でよろしいのでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/214
215: 209,212,214 [] 2010/02/09(火) 16:47:54 追記します。 estseek.conf のreplace設定を見直してみました。 試行錯誤の結果、 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− とすることによりまして、 検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・ となりました。 この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。 これらを消す、なにか良い方法がありましたら教えていただければ助かります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/215
216: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 20:47:05 replaceの設定は元の設定で問題ない感じがします。 むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/216
217: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 21:38:12 こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。 replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 -------------- http://mevius.5ch.net/test/read.cgi/unix/1176807372/217
218: 209,212,214,215 [sage] 2010/02/10(水) 07:57:47 >>216 showlreal を「true」にしてみましたが、状況は変わりませんでした。 ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。 .htmがなぜかジャンプしないのです。 >>217 C:\\server\\と記載し、やってみました。 すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 c:\server\search\・・・・・ となりました。 htmの文書へは、ジャンプしてくれません。 仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。 やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。 まだまだ試行錯誤中・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/218
219: 名無しさん@お腹いっぱい。 [sage] 2010/02/10(水) 08:56:54 つーかさ、やってることの意味分かってやってる? 別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/219
220: 名無しさん@お腹いっぱい。 [sage] 2010/02/23(火) 20:50:40 これって英語の検索もはやくなるの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/220
221: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 00:09:09 もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません http://mevius.5ch.net/test/read.cgi/unix/1176807372/221
222: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:18:43 http://www.seg.rmit.edu.au/zettair/ 英語で使うだけならこっちの方が速かったりする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/222
223: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:50:03 なんだ、宣伝かよ http://mevius.5ch.net/test/read.cgi/unix/1176807372/223
224: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 16:57:45 日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ http://mevius.5ch.net/test/read.cgi/unix/1176807372/224
225: 名無しさん@お腹いっぱい。 [sage] 2010/03/08(月) 21:40:20 亀レスにもほどがあるがズバリそのものがあります。 >>198 Datファイル全文検索ソフト http://frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/225
226: 名無しさん@お腹いっぱい。 [sage] 2010/03/16(火) 22:31:58 「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/226
227: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 00:58:26 indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る? http://mevius.5ch.net/test/read.cgi/unix/1176807372/227
228: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 01:06:28 複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/228
229: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 02:01:51 フィルタ書けばいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/229
230: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:11:50 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、 http://mevius.5ch.net/test/read.cgi/unix/1176807372/230
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 102 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.017s