全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
141: 名無しさん@お腹いっぱい。 [] 2008/07/25(金) 15:21:53 >>139 うぅ、バカに救いの手をありがとうございます。orz 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| ( -t 10 => 500とかもしてみたけどダメだった…) なにげに、 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ すまん、かえって混乱させてるかも。。 というか、自分混乱してる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/141
142: fumiyas [] 2008/07/26(土) 02:26:06 >>141 ああ、わかった…。(たぶん) pdftotext のバグですね。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output の部分を: pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ | output とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。) # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext # chmod 755 /usr/bin/estfxpdftotext とでもして、 $ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ とするとか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/142
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.020s