PDFのWebページは糞 (706レス)
PDFのWebページは糞 http://medaka.5ch.io/test/read.cgi/php/1031239983/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
461: nobodyさん [age] 03/05/04 17:52 ID:??? >>459 回答1: PDFはテキスト化できません。ページの先頭から順番に文字が入ってるとは 限らないから。これはPDFを作ったアプリによります。 SDKで文字抽出してみるとわかるが、文字がちゃんととれるのはWindowsの 「メモ帳」で作ったPDFくらいです。 まあ、「文字の前後関係が少しくらい変わっても意味がわかればいい」 程度ならできなくはないですが仕事でこんな要求をする人はいないでしょうね。 回答2: 質問の意味が不明です。貼り付けられるのはPDFの中のテキストのことですか? http://medaka.5ch.io/test/read.cgi/php/1031239983/461
463: nobodyさん [sage] 03/05/04 18:40 ID:??? >>461 質問1と質問2は、関連していたようです。 まず、jpgやらgifやらは、純粋な画像ファイルですね。 ナンカノ変換かけて、bitmapファイルにして、テキスト化できない ことはないでしょうが、まあ、できないから。 それに対して、pdfは、テキスト領域選択 → コピー → 貼り付けで、 テキスト部分は、テキストになっちゃう。 そんな意味で、pdfは、テキストファイルと画像ファイルの中間の 形式かなって。 pdfファイルをテキストファイル化する方法は、いろいろあるようです が、画像も含めた変換かどうか、やってみてないので、分かりません。 例えば、http://www.himote.org/~moyu/tech/pdf_to_text.html。 http://medaka.5ch.io/test/read.cgi/php/1031239983/463
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.029s