全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
145: fumiyas 2008/07/29(火)13:53 AAS
 >>144 
  
 まずは pdftotext のバグについて。 
 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 
 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら 
 [File] - [Properties] で表示される情報) を HTML の <meta> に 
 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで 
 その中に含まれる <,  & を <,  & に変換してくれません(バグ)。 
 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 
 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 
  
 sed がやっていることですが、<pre>〜</pre> の間の <,  & を 
 <,  & に変換しているだけです。 
  
 最後に estfxpdftohtml(text) の置き場所ですが、私の手元の Debian の 
 hyperestraier パッケージでは /usr/bin に置かれているというだけで、 
 そっちの環境で /usr/local/share/hyperestraier/filter なら、 
 そっちに合わせて ↑ に置くのがいいと思います。 
  
 # sed 's/ -htmlmeta / -raw -nopgbrk /' \ 
   /usr/local/share/hyperestraier/filter/estfxpdftohtml \ 
   >/usr/local/share/hyperestraier/filter/estfxpdftotext 
  
 >>143 
 ハンドル(?)をググると出てくるので、そっちをどうぞ。:-)
上下前次1-新書関写板覧索設栞歴
あと 188 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.026s