全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
130: 2008/06/24(火)21:40 AAS
 DTDって変更したいときは任意の場所に出来るのかな? 
 デフォルトのファイルを書き換えるだけ?
131(1): 2008/06/24(火)22:14 AAS
 >>129 
 どうしたいのか分からんが、間にラッパーを 
 かませればいいんじゃないの?
132: 2008/06/24(火)23:50 AAS
 >>131 
 はい、ラッパー作った方がいいと思います。 
 ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。 
 UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。 
  
 とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。 
 ギャザラはDLL使うのでなんとも不格好なんですが。 
133: 2008/06/25(水)10:35 AAS
 freeをcrtからインポートすればいいだけじゃないの? 
134: 2008/06/26(木)01:02 AAS
 makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね 
 どうもありがとうございました。 
135(1): 2008/07/08(火)20:51 AAS
 質問です。 
 windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、 
 配布されているバイナリパッケージにRubyバインディングが見当たりません。 
 Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、 
 Rubyバインディングのmakeでコケます。 
  
 windowsでは無理?
136: 2008/07/12(土)09:15 AAS
 どうコケのかを言わずに、どう答えて欲しいんだろう
137: 2008/07/12(土)17:24 AAS
 >>135 
 お前にゃ無理だ。 
138(1): 2008/07/24(木)13:28 AAS
 ショボ頭の自分助けて… 
  
 pdfをインデックス化したいんですけど、30MB超えるpdfだと、 
 文章の途中までしかインデックス化してくれません。。 
 特にエラーとか出てないんですけどなんでだろ? 
  
 $ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ 
  
 一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、 
 マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、 
 こんなバカ助かるかな?
139(1): fumiyas 2008/07/25(金)12:27 AAS
 >>138 
  
 estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから 
 「262144」の部分を適当に多くしてみるとどう?
140: fumiyas 2008/07/25(金)12:55 AAS
 >>114 
 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。 
 お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;) 
  
 … その前に Tokyo Estraier を試してみようかしら?
141(1): 2008/07/25(金)15:21 AAS
 >>139 
  
 うぅ、バカに救いの手をありがとうございます。orz 
 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 
 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| 
 ( -t 10 => 500とかもしてみたけどダメだった…) 
  
 なにげに、 
 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" 
 これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 
  
 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 
 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
省2
142(2): fumiyas 2008/07/26(土)02:26 AAS
 >>141 
  
 ああ、わかった…。(たぶん) 
 pdftotext のバグですね。 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output 
  
 の部分を: 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
   |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
   | output
省6
143(1): 2008/07/26(土)11:00 AAS
 >>142 
 あんただれ? 
144(1): 2008/07/28(月)14:06 AAS
 >>142 
  
 ホントすいません、付き合って頂いちゃってありがとうございます。 
 pdftotext のバグですか!? 
 だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`) 
  
 スクリプトありがとうございます(人-) 
 ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分… 
  
 > # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext  
 > # chmod 755 /usr/bin/estfxpdftotext  
  
 estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって 
 /usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
省1
145: fumiyas 2008/07/29(火)13:53 AAS
 >>144 
  
 まずは pdftotext のバグについて。 
 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 
 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら 
 [File] - [Properties] で表示される情報) を HTML の <meta> に 
 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで 
 その中に含まれる <,  & を <,  & に変換してくれません(バグ)。 
 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 
 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 
  
 sed がやっていることですが、<pre>〜</pre> の間の <,  & を
省10
146: fumiyas 2008/07/29(火)13:57 AAS
 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 
 どうしたらいいの? ま、いいか。 
147(1): fumiyas 2008/07/29(火)15:56 AAS
 初心者板で聞いてきました。「&amp;」って書くのね…。 
  
 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
 |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
 |output 
  
 その中に含まれる <,  & を <, >, & に変換してくれません(バグ)。  
148(1): 2008/07/30(水)18:50 AAS
 >>147 
  
 す・すすごい!!できたできました!!(・∀・∀・) 
 ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。 
 きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン 
  
 天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147 
 ほんにありがとうございます。 
  
 確かにインデックスの方には <pre> が単語化されているようですが、 
 これはもう、しょうがないですよ…ね…? 
  
 はぁぁ、感動しちゃいました。(;∀; )  
149: fumiyas 2008/08/01(金)01:35 AAS
 >>148 
 解決されたようでなによりです。 
 「pre」が気になるようなら、上で書いたように estfxpdftohtml 
 の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの 
 値を変更するのを忘れないように。
150: HE@SHE 2008/09/27(土)02:48 AAS
 Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
151: 2008/10/02(木)13:47 AAS
 すみません教えてください。 
 ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 
 pdfの日本語がインデックスに入っていないことに気付きました。 
 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 
  
 degas@debian:~$ pdftotext 日本語入りのpdf.pdf  
 Error: Unknown character collection 'Adobe-Japan1' 
  : 
 Error: Unknown character collection 'Adobe-Japan1' 
  
 ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 
 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
省2
152: 2008/10/02(木)14:23 AAS
 Unknown character collection 'Adobe-Japan1' でググっても解決しないの? 
 xpdf-japanese とやらを入れてる? 
153: 2008/10/02(木)14:29 AAS
 外部リンク[html]:www.foolabs.com 
 にある 
 xpdf-japanese.tar.gz 
 は入れた? 
154: 2008/10/02(木)15:11 AAS
 ありがとうございます。 
 xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。 
155: 2008/10/02(木)15:19 AAS
 そうですか。私にも何でか分かりません。 
156: 151,153 2008/10/02(木)16:59 AAS
 解決しました。 
  
 xpdf-commonをapt-getでインストール、 
 cmap-adobe-japan1を取ってきてdpkgでインストール、 
 さらに/etc/xpdf/xpdfrcに 
 include /etc/xpdf/xpdfrc-japanese.dpkg-new  
 を書き加えればOKでした。 
  
 apt-getしか使えない男にお付き合いいただきありがとうございました。 
 お邪魔しました。
157: 2008/10/02(木)17:05 AAS
 ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。 
 DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。 
158(2): 2008/10/20(月)15:21 AAS
 tokyo estraierはここ以外で存在が話題になっていないんだけど 
 商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか 
159(1): fumiyas 2008/10/27(月)11:44 AAS
 >>158 
 GPL と LGPL だし、問題ないでしょ。(たぶん :-) 
 で、tokyo estraier どんなくらい試しました?
上下前次1-新書関写板覧索設栞歴
あと 174 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.020s