全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
145: fumiyas [] 2008/07/29(火) 13:53:59 >>144 まずは pdftotext のバグについて。 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら [File] - [Properties] で表示される情報) を HTML の <meta> に 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると
、 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 sed がやっていることですが、<pre>〜</pre> の間の <, >, & を <, >, & に変換しているだけです。 最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の hyperestraier パッケージでは /usr/bin に置かれているというだけで、 そっちの環境で /usr/local/share/hyperestraier/filter なら、 そっちに合わせて ↑ に置くのがいいと思います。 # sed 's/ -htmlmeta / -raw -nopgbrk /' \ /usr/local/share/hyperestraier/
filter/estfxpdftohtml \ >/usr/local/share/hyperestraier/filter/estfxpdftotext >>143 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-) http://mevius.5ch.net/test/read.cgi/unix/1176807372/145
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 188 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.015s