全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
130: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 21:40:22 DTDって変更したいときは任意の場所に出来るのかな? デフォルトのファイルを書き換えるだけ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/130
131: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 22:14:59 >>129 どうしたいのか分からんが、間にラッパーを かませればいいんじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/131
132: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 23:50:56 >>131 はい、ラッパー作った方がいいと思います。 ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。 UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。 とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。 ギャザラはDLL使うのでなんとも不格好なんですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/132
133: 名無しさん@お腹いっぱい。 [sage] 2008/06/25(水) 10:35:07 freeをcrtからインポートすればいいだけじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/133
134: 名無しさん@お腹いっぱい。 [sage] 2008/06/26(木) 01:02:03 makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね どうもありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/134
135: 名無しさん@お腹いっぱい。 [sage] 2008/07/08(火) 20:51:02 質問です。 windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、 配布されているバイナリパッケージにRubyバインディングが見当たりません。 Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、 Rubyバインディングのmakeでコケます。 windowsでは無理? http://mevius.5ch.net/test/read.cgi/unix/1176807372/135
136: 名無しさん@お腹いっぱい。 [sage] 2008/07/12(土) 09:15:52 どうコケのかを言わずに、どう答えて欲しいんだろう http://mevius.5ch.net/test/read.cgi/unix/1176807372/136
137: 名無しさん@お腹いっぱい。 [sage] 2008/07/12(土) 17:24:10 >>135 お前にゃ無理だ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/137
138: 名無しさん@お腹いっぱい。 [] 2008/07/24(木) 13:28:58 ショボ頭の自分助けて… pdfをインデックス化したいんですけど、30MB超えるpdfだと、 文章の途中までしかインデックス化してくれません。。 特にエラーとか出てないんですけどなんでだろ? $ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ 一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、 マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、 こんなバカ助かるかな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/138
139: fumiyas [] 2008/07/25(金) 12:27:12 >>138 estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから 「262144」の部分を適当に多くしてみるとどう? http://mevius.5ch.net/test/read.cgi/unix/1176807372/139
140: fumiyas [] 2008/07/25(金) 12:55:11 >>114 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。 お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;) … その前に Tokyo Estraier を試してみようかしら? http://mevius.5ch.net/test/read.cgi/unix/1176807372/140
141: 名無しさん@お腹いっぱい。 [] 2008/07/25(金) 15:21:53 >>139 うぅ、バカに救いの手をありがとうございます。orz 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| ( -t 10 => 500とかもしてみたけどダメだった…) なにげに、 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ すまん、かえって混乱させてるかも。。 というか、自分混乱してる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/141
142: fumiyas [] 2008/07/26(土) 02:26:06 >>141 ああ、わかった…。(たぶん) pdftotext のバグですね。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output の部分を: pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ | output とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。) # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext # chmod 755 /usr/bin/estfxpdftotext とでもして、 $ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ とするとか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/142
143: 名無しさん@お腹いっぱい。 [sage] 2008/07/26(土) 11:00:18 >>142 あんただれ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/143
144: 名無しさん@お腹いっぱい。 [] 2008/07/28(月) 14:06:44 >>142 ホントすいません、付き合って頂いちゃってありがとうございます。 pdftotext のバグですか!? だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`) スクリプトありがとうございます(人-) ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分… > # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext > # chmod 755 /usr/bin/estfxpdftotext estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって /usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ それともそのままやっちゃっても大丈夫的な感じでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/144
145: fumiyas [] 2008/07/29(火) 13:53:59 >>144 まずは pdftotext のバグについて。 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら [File] - [Properties] で表示される情報) を HTML の <meta> に 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 sed がやっていることですが、<pre>〜</pre> の間の <, >, & を <, >, & に変換しているだけです。 最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の hyperestraier パッケージでは /usr/bin に置かれているというだけで、 そっちの環境で /usr/local/share/hyperestraier/filter なら、 そっちに合わせて ↑ に置くのがいいと思います。 # sed 's/ -htmlmeta / -raw -nopgbrk /' \ /usr/local/share/hyperestraier/filter/estfxpdftohtml \ >/usr/local/share/hyperestraier/filter/estfxpdftotext >>143 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-) http://mevius.5ch.net/test/read.cgi/unix/1176807372/145
146: fumiyas [] 2008/07/29(火) 13:57:46 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 どうしたらいいの? ま、いいか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/146
147: fumiyas [] 2008/07/29(火) 15:56:25 初心者板で聞いてきました。「&amp;」って書くのね…。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ |output その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/147
148: 名無しさん@お腹いっぱい。 [] 2008/07/30(水) 18:50:03 >>147 す・すすごい!!できたできました!!(・∀・∀・) ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。 きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン 天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147 ほんにありがとうございます。 確かにインデックスの方には <pre> が単語化されているようですが、 これはもう、しょうがないですよ…ね…? はぁぁ、感動しちゃいました。(;∀; ) http://mevius.5ch.net/test/read.cgi/unix/1176807372/148
149: fumiyas [] 2008/08/01(金) 01:35:58 >>148 解決されたようでなによりです。 「pre」が気になるようなら、上で書いたように estfxpdftohtml の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの 値を変更するのを忘れないように。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/149
150: HE@SHE [] 2008/09/27(土) 02:48:36 Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/150
151: 名無しさん@お腹いっぱい。 [] 2008/10/02(木) 13:47:11 すみません教えてください。 ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 pdfの日本語がインデックスに入っていないことに気付きました。 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 degas@debian:~$ pdftotext 日本語入りのpdf.pdf Error: Unknown character collection 'Adobe-Japan1' : Error: Unknown character collection 'Adobe-Japan1' ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。 念のためいまxpdfも入れてみましたが、同じエラーが出ます。 指針が有ればお願いしますm(_ _)m。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/151
152: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 14:23:09 Unknown character collection 'Adobe-Japan1' でググっても解決しないの? xpdf-japanese とやらを入れてる? http://mevius.5ch.net/test/read.cgi/unix/1176807372/152
153: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 14:29:43 ttp://www.foolabs.com/xpdf/download.html にある xpdf-japanese.tar.gz は入れた? http://mevius.5ch.net/test/read.cgi/unix/1176807372/153
154: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 15:11:58 ありがとうございます。 xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/154
155: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 15:19:29 そうですか。私にも何でか分かりません。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/155
156: 151,153 [sage] 2008/10/02(木) 16:59:34 解決しました。 xpdf-commonをapt-getでインストール、 cmap-adobe-japan1を取ってきてdpkgでインストール、 さらに/etc/xpdf/xpdfrcに include /etc/xpdf/xpdfrc-japanese.dpkg-new を書き加えればOKでした。 apt-getしか使えない男にお付き合いいただきありがとうございました。 お邪魔しました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/156
157: 名無しさん@お腹いっぱい。 [sage] 2008/10/02(木) 17:05:15 ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。 DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/157
158: 名無しさん@お腹いっぱい。 [sage] 2008/10/20(月) 15:21:23 tokyo estraierはここ以外で存在が話題になっていないんだけど 商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか http://mevius.5ch.net/test/read.cgi/unix/1176807372/158
159: fumiyas [] 2008/10/27(月) 11:44:33 >>158 GPL と LGPL だし、問題ないでしょ。(たぶん :-) で、tokyo estraier どんなくらい試しました? http://mevius.5ch.net/test/read.cgi/unix/1176807372/159
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 174 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.097s