全文検索エンジン Hyper Estraier 2 (329レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
146: fumiyas [] 2008/07/29(火) 13:57:46 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 どうしたらいいの? ま、いいか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/146
147: fumiyas [] 2008/07/29(火) 15:56:25 初心者板で聞いてきました。「&amp;」って書くのね…。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ |output その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/147
148: 名無しさん@お腹いっぱい。 [] 2008/07/30(水) 18:50:03 >>147 す・すすごい!!できたできました!!(・∀・∀・) ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。 きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン 天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147 ほんにありがとうございます。 確かにインデックスの方には <pre> が単語化されているようですが、 これはもう、しょうがないですよ…ね…? はぁぁ、感動しちゃいました。(;∀; ) http://mevius.5ch.net/test/read.cgi/unix/1176807372/148
149: fumiyas [] 2008/08/01(金) 01:35:58 >>148 解決されたようでなによりです。 「pre」が気になるようなら、上で書いたように estfxpdftohtml の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの 値を変更するのを忘れないように。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/149
150: HE@SHE [] 2008/09/27(土) 02:48:36 Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/150
151: 名無しさん@お腹いっぱい。 [] 2008/10/02(木) 13:47:11 すみません教えてください。 ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 pdfの日本語がインデックスに入っていないことに気付きました。 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 degas@debian:~$ pdftotext 日本語入りのpdf.pdf Error: Unknown character collection 'Adobe-Japan1' : Error: Unknown character collection 'Adobe-Japan1' ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。 念のためいまxpdfも入れてみましたが、同じエラーが出ます。 指針が有ればお願いしますm(_ _)m。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/151
152: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 14:23:09 Unknown character collection 'Adobe-Japan1' でググっても解決しないの? xpdf-japanese とやらを入れてる? http://mevius.5ch.net/test/read.cgi/unix/1176807372/152
153: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 14:29:43 ttp://www.foolabs.com/xpdf/download.html にある xpdf-japanese.tar.gz は入れた? http://mevius.5ch.net/test/read.cgi/unix/1176807372/153
154: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 15:11:58 ありがとうございます。 xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/154
155: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 15:19:29 そうですか。私にも何でか分かりません。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/155
156: 151,153 [sage] 2008/10/02(木) 16:59:34 解決しました。 xpdf-commonをapt-getでインストール、 cmap-adobe-japan1を取ってきてdpkgでインストール、 さらに/etc/xpdf/xpdfrcに include /etc/xpdf/xpdfrc-japanese.dpkg-new を書き加えればOKでした。 apt-getしか使えない男にお付き合いいただきありがとうございました。 お邪魔しました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/156
157: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 17:05:15 ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。 DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/157
158: 名無しさん@お腹いっぱい。 [sage] 2008/10/20(月) 15:21:23 tokyo estraierはここ以外で存在が話題になっていないんだけど 商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか http://mevius.5ch.net/test/read.cgi/unix/1176807372/158
159: fumiyas [] 2008/10/27(月) 11:44:33 >>158 GPL と LGPL だし、問題ないでしょ。(たぶん :-) で、tokyo estraier どんなくらい試しました? http://mevius.5ch.net/test/read.cgi/unix/1176807372/159
160: 名無しさん@お腹いっぱい。 [sage] 2008/10/28(火) 18:27:33 >>159 >>158じゃないけれど 普通にインデックスして普通に検索出来て普通に遊べて… これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた http://mevius.5ch.net/test/read.cgi/unix/1176807372/160
161: 名無しさん@お腹いっぱい。 [sage] 2008/10/28(火) 18:40:31 データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして http://mevius.5ch.net/test/read.cgi/unix/1176807372/161
162: 名無しさん@お腹いっぱい。 [sage] 2008/10/28(火) 21:50:58 >>161 う…_attrフォルダの中に「depot」ファイルがあるんだが http://mevius.5ch.net/test/read.cgi/unix/1176807372/162
163: 名無しさん@お腹いっぱい。 [sage] 2008/10/29(水) 10:07:46 過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。 UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな… http://mevius.5ch.net/test/read.cgi/unix/1176807372/163
164: 名無しさん@お腹いっぱい。 [sage] 2008/10/29(水) 11:16:02 >>163 ttp://www2.uploda.org/uporg1754116.zip.html http://mevius.5ch.net/test/read.cgi/unix/1176807372/164
165: 名無しさん@お腹いっぱい。 [sage] 2008/10/29(水) 11:38:31 ディレクトリ一覧がデフォルトでは表示されなくなっただけなので 正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで 落とせますよ。 ttp://hyperestraier.sourceforge.net/win/hyperestraier-1.4.10-win32.zip http://mevius.5ch.net/test/read.cgi/unix/1176807372/165
166: 名無しさん@お腹いっぱい。 [sage] 2008/10/29(水) 11:47:50 >>164 >>165 ディレクトリ一覧が表示されないだけだったのか。 ありがとう、助かりました。 お早いレスで俺涙目。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/166
167: 名無しさん@お腹いっぱい。 [sage] 2008/10/29(水) 18:47:28 Tokyo Estraierってどこにあるの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/167
168: 名無しさん@お腹いっぱい。 [sage] 2008/10/30(木) 00:44:04 Windows環境でMecabを使いたいんですけど、可能ですか? 試した手順は、下記になります。 前提:WindowsXP、Cygwin環境 1、Mecab0.97と辞書のビルド 2、下記サイトを参考にし、qdbmとHyperEstraierのビルド ttp://www.shinonon.dyndns.org/diary/20071212.html HyperEstraierのビルドで--enable-mecabとしましたが、 その後のmakeでエラーとなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/168
169: 名無しさん@お腹いっぱい。 [sage] 2008/10/30(木) 14:21:13 >>167 ttp://hyperestraier.sourceforge.net/past/tokyoestraier-0.0.1.tar.gz ベースはHyper Estraier1.4.13 ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが 実際に使われてるのかちと分からん QDBMも一緒に入ってないとエラー出るし ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな… 1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ http://mevius.5ch.net/test/read.cgi/unix/1176807372/169
170: fumiyas [] 2008/10/30(木) 18:22:25 TE コンパイルしてみた。`estcmd create db` だけ試した。 >>162 _idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。 $ /usr/local/tokyoestraier/bin/estcmd crete db $ strings db/_idx/0001 ToKyO CaBiNeT 1.0:510 >>169 HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。 ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。 いいのか? いまのところ DB の構成を把握していないのでよくわからんが、 _idx が転置インデックス? ほかは? 知っている人、教えて…。 あと 100万以上の文書は試したことないんでアレなんだけど、 参考までにハードウェアの構成とか、estcmd create に 指定したオプション (estcmd を使っているなら。-xh 付けたの?)、 estmaster の _conf の設定等を教えてもらえると嬉しいです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/170
171: 名無しさん@お腹いっぱい。 [] 2008/12/08(月) 22:30:47 Hyper Estraierについて質問させてください。 Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、 うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、 そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。 Apacheはxamppを使いました。http://localhost/xampp/ は正常に表示されてると 思います。1.6.8aと出ています。あとphp5もスタートさせました。 でも、http://localhost/cgi-bin/estseek.cgi にアクセスすると、 Error: the configration file is misshing.とか出ます。 /opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。 estcmd search casket 'ほげほげ' とかはちゃんとHITして結果が出てきます。 Errorが出てくる原因は何でしょうか。分かる方教えてください。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/171
172: 171 [sage] 2008/12/09(火) 22:34:48 自己レスです。よく分かりませんが estseek.conf estseek.tmpl estseek.top をchmod 744 したら動きました。失礼しました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/172
173: 名無しさん@お腹いっぱい。 [sage] 2008/12/12(金) 00:50:50 >>53 すげー遅レス失礼。 HEの情報収集中→WikipediaのHEのエントリ→ >>53 の製品ページ って感じでその製品を知ったんだけど、GPLって書いてるくせに ソースコードダウンロードのリンクをたどってもソースコードがないんだけど、 これってどうなの? ttp://www.osstech.co.jp/product/chimera#%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89 つーか、会社概要見たけど、中の人がこのスレにいるのか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/173
174: 名無しさん@お腹いっぱい。 [sage] 2008/12/12(金) 01:21:53 >>173 別に公開する必要は無い。 会社側からするとChimera Searchのバイナリとあわせてソースコードを提供する、 もしくはバイナリにソースコードの入手方法が明記された文書を添えておけばいい。 GPLv2での3-aと3-bね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/174
175: 173 [sage] 2008/12/12(金) 19:40:13 >>174 そうなんだ。どうもありがと。 Webページ見たけど個人お断りみたいな事書いてあったな。 関係ないけどGPL v2日本語訳の原文へのリンクが間違ってるね(v3にリンクされてる)。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/175
176: 名無しさん@お腹いっぱい。 [sage] 2008/12/12(金) 20:12:53 GPLはちゃんと読んでない人は世間の評判から誤解しやすいライセンスだから、 批判するんだったらちゃんと読んで理解してからにした方がいい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/176
177: 名無しさん@お腹いっぱい。 [sage] 2008/12/16(火) 17:55:27 >>173 これ読むといいよ。 http://web.archive.org/web/20041024013051/http://home.catv.ne.jp/pp/ginoue/memo/gpl.html http://mevius.5ch.net/test/read.cgi/unix/1176807372/177
178: 名無しさん@お腹いっぱい。 [sage] 2009/02/01(日) 02:03:25 >>47にも書いてるけど,属性検索ができない. Wikipediaの全文検索デモページで試してみたけど効果なし... http://mevius.5ch.net/test/read.cgi/unix/1176807372/178
179: 名無しさん@お腹いっぱい。 [sage] 2009/02/08(日) 23:47:35 疑似ノードマスタって、認証なしなの? 通常のノードマスタみたいにユーザとパスを設定できないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/179
180: 名無しさん@お腹いっぱい。 [sage] 2009/02/09(月) 01:33:22 estcmd outで文書の一括削除はできますか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/180
181: 名無しさん@お腹いっぱい。 [] 2009/02/13(金) 23:47:32 Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って いるサイトとかってないですかね? web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・ 初歩的な質問ですいません。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/181
182: 名無しさん@お腹いっぱい。 [sage] 2009/02/23(月) 06:47:28 Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。 mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。 32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。 aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。 必要なライブラリについてご存知の方いませんか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/182
183: 名無しさん@お腹いっぱい。 [sage] 2009/02/23(月) 09:04:47 >>182 やったの去年だからよく覚えてないけど ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする http://mevius.5ch.net/test/read.cgi/unix/1176807372/183
184: 名無しさん@お腹いっぱい。 [sage] 2009/02/23(月) 17:49:55 aptで入るね http://mevius.5ch.net/test/read.cgi/unix/1176807372/184
185: 182 [sage] 2009/02/24(火) 06:22:35 >>183-184 レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。 aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、http://arglist.com/regex/からregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。 似たような事で困っている方は試してみて下さい。 どうもお騒がせしました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/185
186: 名無しさん@お腹いっぱい。 [sage] 2009/08/28(金) 12:40:08 作者ページのタイトルがうざくなってるんだが、改ざんされたのかな http://mevius.5ch.net/test/read.cgi/unix/1176807372/186
187: 名無しさん@お腹いっぱい。 [sage] 2009/08/28(金) 13:43:19 特に変わったようには見えないが。 > Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT だし。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/187
188: 名無しさん@お腹いっぱい。 [sage] 2009/08/28(金) 20:25:53 >>186 ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。 しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/188
189: 名無しさん@お腹いっぱい。 [sage] 2009/08/28(金) 22:37:54 ソース見てみた、何じゃこりゃ。 > case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break; http://mevius.5ch.net/test/read.cgi/unix/1176807372/189
190: 名無しさん@お腹いっぱい。 [sage] 2009/08/31(月) 10:17:50 > From: [783] 名無しさん@お腹いっぱい。 <sage> > Date: 2006/09/17(日) 07:52:41 > > case 59: name = "ちょwwwおまwwwいごww"; break; > case 61: name = "どう見ても超迷子です本当にありがとうございました"; break; http://mevius.5ch.net/test/read.cgi/unix/1176807372/190
191: 名無しさん@お腹いっぱい。 [sage] 2009/11/09(月) 16:22:46 検索してもHitしないってことはなにが考えられるのかな? 登録文書に検索語句は確実にあるし、DBも壊れていない・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/191
192: 名無しさん@お腹いっぱい。 [sage] 2009/11/09(月) 18:02:45 ごめん、壊れてたみたい。 estcmd inform で壊れてるかどうかわかんないんだよなあ・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/192
193: 名無しさん@お腹いっぱい。 [sage] 2009/11/15(日) 00:49:32 >>192 そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。 どうやって壊れてる判定したの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/193
194: 名無しさん@お腹いっぱい。 [sage] 2009/11/15(日) 01:54:04 >>193 絶対に登録文書にある文字列を検索しても出てこなかったので。 再構築で直りました。 インデックスが壊れているかどうか調べるコマンドが欲しい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/194
195: 名無しさん@お腹いっぱい。 [sage] 2009/11/18(水) 06:15:41 estcmd repair を、時々やらないと駄目ってことですかね。 (-_-;ウーン たまに治らないときもあるし.. -- 追記お願いします m(_ _"m)ペコリ--------- 【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる サーバールートDirの _pid _stop の削除 【テク2】DBが?でるっぽい #estcmd repair index_path ex.ノードサーバー利用時は(サーバールートをcasketなら) #estcmd repair casket/_node/ノード名 【テク3】estwaver crawl時の「could not open」エラーの解決法 クローラールートディレクトリを crawl_dir と仮定して Code: #cd crawl_dir #estcmd repair _index #dpmgr repair _trace/0001/depot #dpmgr repair _trace/0002/depot #dpmgr repair _trace/0003/depot http://mevius.5ch.net/test/read.cgi/unix/1176807372/195
196: 名無しさん@お腹いっぱい。 [sage] 2009/11/18(水) 16:56:39 >>195 >>estcmd repair を、時々やらないと駄目ってことですかね。 repairを一回やってみたんだ。直ったかなと思って、それでも念の為に もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。 repairを繰り返す度に減っていくんだ・・・ あきらめて再構築したよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/196
197: 名無しさん@お腹いっぱい。 [sage] 2009/11/19(木) 05:41:03 >repairを繰り返す度に減っていくんだ・・・ ((( ;゚Д゚)))ガクガクブルブル 「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか? 「特定のキーワードにヒットさせない」でもいいかなー http://mevius.5ch.net/test/read.cgi/unix/1176807372/197
198: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 08:54:17 Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。 DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。 DesktopHEで利用しようとしております。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/198
199: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 14:16:19 >>197 私も探してみたけど、そのものは無いみたい。 よくやる作業ならcgiとか作るんじゃないかな。 コマンドから手作業するときは、例えばこんな感じ。 消したいやつを検索して estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord OKなら上のコマンドに以下を追加 |awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done http://mevius.5ch.net/test/read.cgi/unix/1176807372/199
200: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 16:26:25 >>198 出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、 DesktopHEの関連付けはjaneにすればいいみたいな。 私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/200
201: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 22:49:29 >>200 速レスありがとう。 htmlに変換してって毎日巡回するたびにdat2html走らせてるの? それとも真夜中にバッチ処理? いずれにせよ、HDD容量が倍必要ですよね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/201
202: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 12:31:28 >>201 >>毎日巡回するたびにdat2html走らせてるの? そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。 ログは8GBくらいある。datファイルは定期的に削除している。 ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/202
203: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 23:28:31 >>202 うちもログは6Gぐらいあります。 全部変換するとなると15gぐらいいきそうですよねorz Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。 Threadsearchと併用しないと駄目ですかね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/203
204: 名無しさん@お腹いっぱい。 [sage] 2009/11/27(金) 00:40:30 XREAで設置しようとしたけど、インストールの段階で躓いたorz cannot find -liconvとかでてきてるし・・・ libiconvの入れ方に問題があるのかなぁ・・・。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/204
205: 名無しさん@お腹いっぱい。 [] 2010/01/07(木) 21:28:29 某サイト丸ごと吸い上げようと、 クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった... 種文書を全部吸い上げてからインデックスするとは知らんかった。 seeddepth1〜2でよさそうね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/205
206: 名無しさん@お腹いっぱい。 [sage] 2010/01/15(金) 16:12:43 Hyper Estraier のwinを使っている方に質問です。 当方初心者。 インストール、インデックス作成まではできました。なんとか。 しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。 replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/206
207: 名無しさん@お腹いっぱい。 [sage] 2010/01/16(土) 02:43:00 >>206 win版も使ったことはありますが、それだけでは何がなんだか分かりません。 estcmd inform casket は通りますか? Hyper Estraier の画面は出るのですか? 表示のどこかに不満があるのですか? どうなって欲しくて、現状どうなっているのか書いてください。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/207
208: 名無しさん@お腹いっぱい。 [sage] 2010/01/18(月) 15:45:09 ゴミのような2chのログも、こいつを使うと宝の山になる。 はらしょー http://mevius.5ch.net/test/read.cgi/unix/1176807372/208
209: 名無しさん@お腹いっぱい。 [] 2010/02/05(金) 14:01:07 Hyper Estraier 1.4.10(Win)を利用している者です。 ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか? 今、その状態です。 検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。 すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。 どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか? これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/209
210: 名無しさん@お腹いっぱい。 [sage] 2010/02/05(金) 22:04:05 文字コードの問題じゃね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/210
211: 名無しさん@お腹いっぱい。 [sage] 2010/02/07(日) 17:19:49 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/211
212: 209 [] 2010/02/08(月) 08:11:35 >>211 ブラウザは、他にオペラも試しました。同じ結果でした。 クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。 >>210 仮に文字コードの問題なら、対処法はありますでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/212
213: 名無しさん@お腹いっぱい。 [sage] 2010/02/08(月) 20:12:30 まずは、本当に文字コードの問題かどうかを確かめるべきです フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います http://mevius.5ch.net/test/read.cgi/unix/1176807372/213
214: 209,212 [] 2010/02/09(火) 08:13:55 >>213 >フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し やってみました。ダメでした。相変わらずジャンプしてくれません。 考えるに、estseek.conf の replace設定なのかな、と。 これについては、自分でも自信がなかったので、下記に示します。 当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: ^file:///c:\server\{{!}}http://127.0.0.1/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− このような記載でよろしいのでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/214
215: 209,212,214 [] 2010/02/09(火) 16:47:54 追記します。 estseek.conf のreplace設定を見直してみました。 試行錯誤の結果、 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− とすることによりまして、 検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・ となりました。 この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。 これらを消す、なにか良い方法がありましたら教えていただければ助かります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/215
216: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 20:47:05 replaceの設定は元の設定で問題ない感じがします。 むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/216
217: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 21:38:12 こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。 replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 -------------- http://mevius.5ch.net/test/read.cgi/unix/1176807372/217
218: 209,212,214,215 [sage] 2010/02/10(水) 07:57:47 >>216 showlreal を「true」にしてみましたが、状況は変わりませんでした。 ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。 .htmがなぜかジャンプしないのです。 >>217 C:\\server\\と記載し、やってみました。 すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 c:\server\search\・・・・・ となりました。 htmの文書へは、ジャンプしてくれません。 仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。 やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。 まだまだ試行錯誤中・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/218
219: 名無しさん@お腹いっぱい。 [sage] 2010/02/10(水) 08:56:54 つーかさ、やってることの意味分かってやってる? 別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/219
220: 名無しさん@お腹いっぱい。 [sage] 2010/02/23(火) 20:50:40 これって英語の検索もはやくなるの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/220
221: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 00:09:09 もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません http://mevius.5ch.net/test/read.cgi/unix/1176807372/221
222: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:18:43 http://www.seg.rmit.edu.au/zettair/ 英語で使うだけならこっちの方が速かったりする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/222
223: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:50:03 なんだ、宣伝かよ http://mevius.5ch.net/test/read.cgi/unix/1176807372/223
224: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 16:57:45 日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ http://mevius.5ch.net/test/read.cgi/unix/1176807372/224
225: 名無しさん@お腹いっぱい。 [sage] 2010/03/08(月) 21:40:20 亀レスにもほどがあるがズバリそのものがあります。 >>198 Datファイル全文検索ソフト http://frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/225
226: 名無しさん@お腹いっぱい。 [sage] 2010/03/16(火) 22:31:58 「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/226
227: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 00:58:26 indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る? http://mevius.5ch.net/test/read.cgi/unix/1176807372/227
228: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 01:06:28 複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/228
229: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 02:01:51 フィルタ書けばいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/229
230: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:11:50 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、 http://mevius.5ch.net/test/read.cgi/unix/1176807372/230
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
232: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:31:23 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ # 思いついた単語を羅列してるだけみたいだけど在日? http://mevius.5ch.net/test/read.cgi/unix/1176807372/232
233: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 10:19:59 脊髄反射で在日とか言うネトウヨ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/233
234: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 11:17:22 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/234
235: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 12:04:40 いいえ、自分が理解できないだけなのを認めたくないだけです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/235
236: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:35:20 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/236
237: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:56:04 はい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/237
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
239: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 15:22:12 分かってんならすぐに教えてやれよ、ノロマだな という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 http://mevius.5ch.net/test/read.cgi/unix/1176807372/239
240: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 20:42:39 サンクス いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/240
241: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:42:38 ちょwまて 漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ http://mevius.5ch.net/test/read.cgi/unix/1176807372/241
242: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:58:55 数ギガ、数十ギガとデータあったらどうする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/242
243: 名無しさん@お腹いっぱい。 [sage] 2010/03/27(土) 00:22:50 もうその話あきた。よそでやれ http://mevius.5ch.net/test/read.cgi/unix/1176807372/243
244: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 09:33:15 mixiで公開してる東京なんとか とかいう奴はこれの上位版? http://mevius.5ch.net/test/read.cgi/unix/1176807372/244
245: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 11:36:00 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/245
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 84 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.011s