全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
143(1): 2008/07/26(土)11:00 AAS
>>142
あんただれ?
144(1): 2008/07/28(月)14:06 AAS
>>142
ホントすいません、付き合って頂いちゃってありがとうございます。
pdftotext のバグですか!?
だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`)
スクリプトありがとうございます(人-)
ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分…
> # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
> # chmod 755 /usr/bin/estfxpdftotext
estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって
/usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
省1
145: fumiyas 2008/07/29(火)13:53 AAS
>>144
まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, & を <, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。
sed がやっていることですが、<pre>〜</pre> の間の <, & を
省10
146: fumiyas 2008/07/29(火)13:57 AAS
ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。
どうしたらいいの? ま、いいか。
147(1): fumiyas 2008/07/29(火)15:56 AAS
初心者板で聞いてきました。「&amp;」って書くのね…。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
|output
その中に含まれる <, & を <, >, & に変換してくれません(バグ)。
148(1): 2008/07/30(水)18:50 AAS
>>147
す・すすごい!!できたできました!!(・∀・∀・)
ごっそり抜けちゃってた文章も、タグだと誤解されてしまってたんですね。
きちんとインデックスに戻ってきました、戻ってきましたよ!!щ(゜ロ゜щ) カモ-ン
天才ですかfumiyasさま… (シ_ _)シ ネ申 >>147
ほんにありがとうございます。
確かにインデックスの方には <pre> が単語化されているようですが、
これはもう、しょうがないですよ…ね…?
はぁぁ、感動しちゃいました。(;∀; )
149: fumiyas 2008/08/01(金)01:35 AAS
>>148
解決されたようでなによりです。
「pre」が気になるようなら、上で書いたように estfxpdftohtml
の代わりに estfxpdftotext でもどうぞ。estcmd の -fx オプションの
値を変更するのを忘れないように。
150: HE@SHE 2008/09/27(土)02:48 AAS
Hyper Estraierで、URI属性をフレーズ検索の対象とする方法はありますでしょうか。
151: 2008/10/02(木)13:47 AAS
すみません教えてください。
ファイルサーバ(Xとか入れてません)として使っているetchにHyper Estraierを入れてわりと経つのですが、
pdfの日本語がインデックスに入っていないことに気付きました。
いろいろ調べて、ひとまずpdftotextが日本語を変換してくれてないのだ、と分かりました。
degas@debian:~$ pdftotext 日本語入りのpdf.pdf
Error: Unknown character collection 'Adobe-Japan1'
:
Error: Unknown character collection 'Adobe-Japan1'
ってな状況ですorz。xpdfはapt-getでhyperestraierをインストールするときに
推奨パッケージでxpdf-utilsを入れたので、大丈夫だと思っているのですが…。
省2
152: 2008/10/02(木)14:23 AAS
Unknown character collection 'Adobe-Japan1' でググっても解決しないの?
xpdf-japanese とやらを入れてる?
153: 2008/10/02(木)14:29 AAS
外部リンク[html]:www.foolabs.com
にある
xpdf-japanese.tar.gz
は入れた?
154: 2008/10/02(木)15:11 AAS
ありがとうございます。
xpdf-japaneseはapt-getだと入らないのですよ…何でか分からないけど。
155: 2008/10/02(木)15:19 AAS
そうですか。私にも何でか分かりません。
156: 151,153 2008/10/02(木)16:59 AAS
解決しました。
xpdf-commonをapt-getでインストール、
cmap-adobe-japan1を取ってきてdpkgでインストール、
さらに/etc/xpdf/xpdfrcに
include /etc/xpdf/xpdfrc-japanese.dpkg-new
を書き加えればOKでした。
apt-getしか使えない男にお付き合いいただきありがとうございました。
お邪魔しました。
157: 2008/10/02(木)17:05 AAS
ファイルを指定ディレクトリに置くだけだからapt-getイラネですよ。
DLしてtar xvfzしてREADMEだかINSTALLだか読めば分かると思う。
158(2): 2008/10/20(月)15:21 AAS
tokyo estraierはここ以外で存在が話題になっていないんだけど
商用、あるいは公用の検索システムに勝手に使っちゃっていいんだろうか
159(1): fumiyas 2008/10/27(月)11:44 AAS
>>158
GPL と LGPL だし、問題ないでしょ。(たぶん :-)
で、tokyo estraier どんなくらい試しました?
160: 2008/10/28(火)18:27 AAS
>>159
>>158じゃないけれど
普通にインデックスして普通に検索出来て普通に遊べて…
これ、本当にインデックス時にTokyoCabinet使ってるのか不安になってきた
161(1): 2008/10/28(火)18:40 AAS
データベースファイルの先頭バイトを覗いたら、[depot]って書かれてたりして
162(1): 2008/10/28(火)21:50 AAS
>>161
う…_attrフォルダの中に「depot」ファイルがあるんだが
163(1): 2008/10/29(水)10:07 AAS
過去のバージョンと、Windows版のバイナリパッケージのページが落ちてるようなんだが。
UNIX板でアレだけどWin版の1.4.10持ってる人だれか上げてくれないかな…
164(1): 2008/10/29(水)11:16 AAS
>>163
外部リンク[html]:www2.uploda.org
165(1): 2008/10/29(水)11:38 AAS
ディレクトリ一覧がデフォルトでは表示されなくなっただけなので
正確なファイル名が分かるとか、検索サイト等のキャッシュから手繰るとかで
落とせますよ。
外部リンク[zip]:hyperestraier.sourceforge.net
166: 2008/10/29(水)11:47 AAS
>>164
>>165
ディレクトリ一覧が表示されないだけだったのか。
ありがとう、助かりました。
お早いレスで俺涙目。
167(1): 2008/10/29(水)18:47 AAS
Tokyo Estraierってどこにあるの?
168: 2008/10/30(木)00:44 AAS
Windows環境でMecabを使いたいんですけど、可能ですか?
試した手順は、下記になります。
前提:WindowsXP、Cygwin環境
1、Mecab0.97と辞書のビルド
2、下記サイトを参考にし、qdbmとHyperEstraierのビルド
外部リンク[html]:www.shinonon.dyndns.org
HyperEstraierのビルドで--enable-mecabとしましたが、
その後のmakeでエラーとなります。
169(1): 2008/10/30(木)14:21 AAS
>>167
外部リンク[gz]:hyperestraier.sourceforge.net
ベースはHyper Estraier1.4.13
ソース見ると確かにTokyo Cabinetのincludeが入ってるんだが
実際に使われてるのかちと分からん
QDBMも一緒に入ってないとエラー出るし
ところで100万以上の文書を対象にインデックス作ると想像以上に遅いんだな…
1秒以下でパパッと結果が表示されるのは何件くらいが限度なんだろ
170: fumiyas 2008/10/30(木)18:22 AAS
TE コンパイルしてみた。`estcmd create db` だけ試した。
>>162
_idx 以外は QDBM を使ってるんで、_idx だけ見てごらん。
$ /usr/local/tokyoestraier/bin/estcmd crete db
$ strings db/_idx/0001
ToKyO CaBiNeT
1.0:510
>>169
HE ソースとの diff とってみればわかるけど、一部のみ TC, ほかは QDBM。
ちなみに、`estcmd repair db` 時に _idx 以下は何もしないようになっている。
省6
171(1): 2008/12/08(月)22:30 AAS
Hyper Estraierについて質問させてください。
Windowsで一回動かしたんですが、cygwinのパスで結果が表示されてしまうので、
うれしくないと思い、VMware2.5.1 build-126130 でUbuntu7.10を動かし、
そちらでestcmd gather を走らせました。Hyper Estraier1.4.9です。
Apacheはxamppを使いました。外部リンク:localhost は正常に表示されてると
思います。1.6.8aと出ています。あとphp5もスタートさせました。
でも、外部リンク[cgi]:localhost にアクセスすると、
Error: the configration file is misshing.とか出ます。
/opt/lampp/cgi-bin/estseek.cgi と同じフォルダに estseek.confは置いてます。
estcmd search casket 'ほげほげ'
省2
172: 171 2008/12/09(火)22:34 AAS
自己レスです。よく分かりませんが
estseek.conf
estseek.tmpl
estseek.top
をchmod 744 したら動きました。失礼しました。
上下前次1-新書関写板覧索設栞歴
あと 161 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.021s