全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
210: 名無しさん@お腹いっぱい。 [sage] 2010/02/05(金) 22:04:05 文字コードの問題じゃね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/210
211: 名無しさん@お腹いっぱい。 [sage] 2010/02/07(日) 17:19:49 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/211
212: 209 [] 2010/02/08(月) 08:11:35 >>211 ブラウザは、他にオペラも試しました。同じ結果でした。 クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。 >>210 仮に文字コードの問題なら、対処法はありますでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/212
213: 名無しさん@お腹いっぱい。 [sage] 2010/02/08(月) 20:12:30 まずは、本当に文字コードの問題かどうかを確かめるべきです フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います http://mevius.5ch.net/test/read.cgi/unix/1176807372/213
214: 209,212 [] 2010/02/09(火) 08:13:55 >>213 >フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し やってみました。ダメでした。相変わらずジャンプしてくれません。 考えるに、estseek.conf の replace設定なのかな、と。 これについては、自分でも自信がなかったので、下記に示します。 当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: ^file:///c:\server\{{!}}http://127.0.0.1/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− このような記載でよろしいのでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/214
215: 209,212,214 [] 2010/02/09(火) 16:47:54 追記します。 estseek.conf のreplace設定を見直してみました。 試行錯誤の結果、 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− とすることによりまして、 検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・ となりました。 この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。 これらを消す、なにか良い方法がありましたら教えていただければ助かります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/215
216: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 20:47:05 replaceの設定は元の設定で問題ない感じがします。 むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/216
217: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 21:38:12 こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。 replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 -------------- http://mevius.5ch.net/test/read.cgi/unix/1176807372/217
218: 209,212,214,215 [sage] 2010/02/10(水) 07:57:47 >>216 showlreal を「true」にしてみましたが、状況は変わりませんでした。 ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。 .htmがなぜかジャンプしないのです。 >>217 C:\\server\\と記載し、やってみました。 すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 c:\server\search\・・・・・ となりました。 htmの文書へは、ジャンプしてくれません。 仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。 やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。 まだまだ試行錯誤中・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/218
219: 名無しさん@お腹いっぱい。 [sage] 2010/02/10(水) 08:56:54 つーかさ、やってることの意味分かってやってる? 別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/219
220: 名無しさん@お腹いっぱい。 [sage] 2010/02/23(火) 20:50:40 これって英語の検索もはやくなるの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/220
221: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 00:09:09 もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません http://mevius.5ch.net/test/read.cgi/unix/1176807372/221
222: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:18:43 http://www.seg.rmit.edu.au/zettair/ 英語で使うだけならこっちの方が速かったりする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/222
223: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:50:03 なんだ、宣伝かよ http://mevius.5ch.net/test/read.cgi/unix/1176807372/223
224: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 16:57:45 日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ http://mevius.5ch.net/test/read.cgi/unix/1176807372/224
225: 名無しさん@お腹いっぱい。 [sage] 2010/03/08(月) 21:40:20 亀レスにもほどがあるがズバリそのものがあります。 >>198 Datファイル全文検索ソフト http://frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/225
226: 名無しさん@お腹いっぱい。 [sage] 2010/03/16(火) 22:31:58 「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/226
227: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 00:58:26 indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る? http://mevius.5ch.net/test/read.cgi/unix/1176807372/227
228: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 01:06:28 複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/228
229: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 02:01:51 フィルタ書けばいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/229
230: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:11:50 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、 http://mevius.5ch.net/test/read.cgi/unix/1176807372/230
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
232: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:31:23 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ # 思いついた単語を羅列してるだけみたいだけど在日? http://mevius.5ch.net/test/read.cgi/unix/1176807372/232
233: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 10:19:59 脊髄反射で在日とか言うネトウヨ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/233
234: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 11:17:22 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/234
235: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 12:04:40 いいえ、自分が理解できないだけなのを認めたくないだけです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/235
236: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:35:20 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/236
237: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:56:04 はい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/237
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
239: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 15:22:12 分かってんならすぐに教えてやれよ、ノロマだな という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 http://mevius.5ch.net/test/read.cgi/unix/1176807372/239
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 94 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.017s