全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
142(2): fumiyas 2008/07/26(土)02:26 AAS
>>141
ああ、わかった…。(たぶん)
pdftotext のバグですね。
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output
の部分を:
pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。)
# sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext
# chmod 755 /usr/bin/estfxpdftotext
とでもして、
$ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./
とするとか。
上下前次1-新書関写板覧索設栞歴
あと 191 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.004s