全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
140: fumiyas 2008/07/25(金)12:55 AAS
 >>114 
 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。 
 お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;) 
  
 … その前に Tokyo Estraier を試してみようかしら?
141(1): 2008/07/25(金)15:21 AAS
 >>139 
  
 うぅ、バカに救いの手をありがとうございます。orz 
 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 
 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| 
 ( -t 10 => 500とかもしてみたけどダメだった…) 
  
 なにげに、 
 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" 
 これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 
  
 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 
 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
省2
142(2): fumiyas 2008/07/26(土)02:26 AAS
 >>141 
  
 ああ、わかった…。(たぶん) 
 pdftotext のバグですね。 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output 
  
 の部分を: 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
   |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
   | output
省6
143(1): 2008/07/26(土)11:00 AAS
 >>142 
 あんただれ? 
144(1): 2008/07/28(月)14:06 AAS
 >>142 
  
 ホントすいません、付き合って頂いちゃってありがとうございます。 
 pdftotext のバグですか!? 
 だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`) 
  
 スクリプトありがとうございます(人-) 
 ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分… 
  
 > # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext  
 > # chmod 755 /usr/bin/estfxpdftotext  
  
 estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって 
 /usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
省1
145: fumiyas 2008/07/29(火)13:53 AAS
 >>144 
  
 まずは pdftotext のバグについて。 
 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 
 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら 
 [File] - [Properties] で表示される情報) を HTML の <meta> に 
 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで 
 その中に含まれる <,  & を <,  & に変換してくれません(バグ)。 
 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 
 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 
  
 sed がやっていることですが、<pre>〜</pre> の間の <,  & を
省10
146: fumiyas 2008/07/29(火)13:57 AAS
 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 
 どうしたらいいの? ま、いいか。 
147(1): fumiyas 2008/07/29(火)15:56 AAS
 初心者板で聞いてきました。「&amp;」って書くのね…。 
  
 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
 |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
 |output 
  
 その中に含まれる <,  & を <, >, & に変換してくれません(バグ)。  
148(1): 2008/07/30(水)18:50 AAS
 >>147 
  
 す・すすごい!!できたできました!!(・∀・∀・) 
 ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。 
 きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン 
  
 天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147 
 ほんにありがとうございます。 
  
 確かにインデックスの方には <pre> が単語化されているようですが、 
 これはもう、しょうがないですよ…ね…? 
  
 はぁぁ、感動しちゃいました。(;∀; )  
149: fumiyas 2008/08/01(金)01:35 AAS
 >>148 
 解決されたようでなによりです。 
 「pre」が気になるようなら、上で書いたように estfxpdftohtml 
 の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの 
 値を変更するのを忘れないように。
150: HE@SHE 2008/09/27(土)02:48 AAS
 Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
151: 2008/10/02(木)13:47 AAS
 すみません教えてください。 
 ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、 
 pdfの日本語がインデックスに入っていないことに気付きました。 
 いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。 
  
 degas@debian:~$ pdftotext 日本語入りのpdf.pdf  
 Error: Unknown character collection 'Adobe-Japan1' 
  : 
 Error: Unknown character collection 'Adobe-Japan1' 
  
 ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに 
 推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
省2
152: 2008/10/02(木)14:23 AAS
 Unknown character collection 'Adobe-Japan1' でググっても解決しないの? 
 xpdf-japanese とやらを入れてる? 
153: 2008/10/02(木)14:29 AAS
 外部リンク[html]:www.foolabs.com 
 にある 
 xpdf-japanese.tar.gz 
 は入れた? 
154: 2008/10/02(木)15:11 AAS
 ありがとうございます。 
 xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。 
155: 2008/10/02(木)15:19 AAS
 そうですか。私にも何でか分かりません。 
156: 151,153 2008/10/02(木)16:59 AAS
 解決しました。 
  
 xpdf-commonをapt-getでインストール、 
 cmap-adobe-japan1を取ってきてdpkgでインストール、 
 さらに/etc/xpdf/xpdfrcに 
 include /etc/xpdf/xpdfrc-japanese.dpkg-new  
 を書き加えればOKでした。 
  
 apt-getしか使えない男にお付き合いいただきありがとうございました。 
 お邪魔しました。
157: 2008/10/02(木)17:05 AAS
 ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。 
 DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。 
158(2): 2008/10/20(月)15:21 AAS
 tokyo estraierはここ以外で存在が話題になっていないんだけど 
 商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか 
159(1): fumiyas 2008/10/27(月)11:44 AAS
 >>158 
 GPL と LGPL だし、問題ないでしょ。(たぶん :-) 
 で、tokyo estraier どんなくらい試しました?
160: 2008/10/28(火)18:27 AAS
 >>159 
 >>158じゃないけれど 
 普通にインデックスして普通に検索出来て普通に遊べて… 
 これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた 
161(1): 2008/10/28(火)18:40 AAS
 データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして 
162(1): 2008/10/28(火)21:50 AAS
 >>161 
 う…_attrフォルダの中に「depot」ファイルがあるんだが 
163(1): 2008/10/29(水)10:07 AAS
 過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。 
 UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな… 
164(1): 2008/10/29(水)11:16 AAS
 >>163 
 外部リンク[html]:www2.uploda.org 
165(1): 2008/10/29(水)11:38 AAS
 ディレクトリ一覧がデフォルトでは表示されなくなっただけなので 
 正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで 
 落とせますよ。 
  
 外部リンク[zip]:hyperestraier.sourceforge.net
166: 2008/10/29(水)11:47 AAS
 >>164 
 >>165 
 ディレクトリ一覧が表示されないだけだったのか。 
 ありがとう、助かりました。 
 お早いレスで俺涙目。 
167(1): 2008/10/29(水)18:47 AAS
 Tokyo Estraierってどこにあるの? 
168: 2008/10/30(木)00:44 AAS
 Windows環境でMecabを使いたいんですけど、可能ですか? 
 試した手順は、下記になります。 
 前提:WindowsXP、Cygwin環境 
 1、Mecab0.97と辞書のビルド 
 2、下記サイトを参考にし、qdbmとHyperEstraierのビルド 
 外部リンク[html]:www.shinonon.dyndns.org 
 HyperEstraierのビルドで--enable-mecabとしましたが、 
 その後のmakeでエラーとなります。 
169(1): 2008/10/30(木)14:21 AAS
 >>167 
 外部リンク[gz]:hyperestraier.sourceforge.net 
  
 ベースはHyper Estraier1.4.13 
 ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが 
 実際に使われてるのかちと分からん 
 QDBMも一緒に入ってないとエラー出るし 
  
 ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな… 
 1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ 
上下前次1-新書関写板覧索設栞歴
あと 164 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.015s