全文検索エンジン Hyper Estraier 2 (333レス)
前次1-
抽出解除 レス栞

143
(1): 2008/07/26(土)11:00 AAS
>>142
あんただれ?
145: fumiyas 2008/07/29(火)13:53 AAS
>>144

まずは pdftotext のバグについて。
pdftotext は -htmlmeta オプションを付けると PDF に含まれる
本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら
[File] - [Properties] で表示される情報) を HTML の <meta> に
含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで
その中に含まれる <, & を <, & に変換してくれません(バグ)。
なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、
estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。

sed がやっていることですが、<pre>〜</pre> の間の <, & を
省10
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.018s