全文検索エンジン Hyper Estraier 2 (333レス)
上
下
前
次
1-
新
145
:
fumiyas
2008/07/29(火)13:53
AA×
>>144
>>143
[240|
320
|
480
|
600
|
100%
|
JPG
|
べ
|
レス栞
|
レス消
]
145: fumiyas [] 2008/07/29(火) 13:53:59 >>144 まずは pdftotext のバグについて。 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら [File] - [Properties] で表示される情報) を HTML の <meta> に 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで その中に含まれる <, >, & を <, >, & に変換してくれません(バグ)。 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 sed がやっていることですが、<pre>〜</pre> の間の <, >, & を <, >, & に変換しているだけです。 最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の hyperestraier パッケージでは /usr/bin に置かれているというだけで、 そっちの環境で /usr/local/share/hyperestraier/filter なら、 そっちに合わせて ↑ に置くのがいいと思います。 # sed 's/ -htmlmeta / -raw -nopgbrk /' \ /usr/local/share/hyperestraier/filter/estfxpdftohtml \ >/usr/local/share/hyperestraier/filter/estfxpdftotext >>143 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-) http://mevius.5ch.net/test/read.cgi/unix/1176807372/145
まずは のバグについて は オプションを付けると に含まれる 本文のテキストを簡単な にしてプラス文書情報 なら で表示される情報 を の に 含めてくれますが 本文のテキストは で囲まれるだけで その中に含まれる を に変換してくれませんバグ なので にのタグではない適当な文字列という文が含まれていると がそれを のタグと認識してしまい削除してしまいます がやっていることですが の間の を に変換しているだけです 最後に の置き場所ですが私の手元の の パッケージでは に置かれているというだけで そっちの環境で なら そっちに合わせて に置くのがいいと思います ハンドルをググると出てくるのでそっちをどうぞ
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 188 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
ぬこの手
ぬこTOP
0.049s