PDFのWebページは糞 (706レス)
上下前次1-新
抽出解除 レス栞
461(1): [age] 03/05/04 17:52 ID:??? AAS
>>459
回答1:
PDFはテキスト化できません。ページの先頭から順番に文字が入ってるとは
限らないから。これはPDFを作ったアプリによります。
SDKで文字抽出してみるとわかるが、文字がちゃんととれるのはWindowsの
「メモ帳」で作ったPDFくらいです。
まあ、「文字の前後関係が少しくらい変わっても意味がわかればいい」
程度ならできなくはないですが仕事でこんな要求をする人はいないでしょうね。
回答2:
質問の意味が不明です。貼り付けられるのはPDFの中のテキストのことですか?
463: 03/05/04 18:40 ID:??? AAS
>>461
質問1と質問2は、関連していたようです。
まず、jpgやらgifやらは、純粋な画像ファイルですね。
ナンカノ変換かけて、bitmapファイルにして、テキスト化できない
ことはないでしょうが、まあ、できないから。
それに対して、pdfは、テキスト領域選択 → コピー → 貼り付けで、
テキスト部分は、テキストになっちゃう。
そんな意味で、pdfは、テキストファイルと画像ファイルの中間の
形式かなって。
pdfファイルをテキストファイル化する方法は、いろいろあるようです
省2
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.028s