PDFのWebページは糞 (706レス)
前次1-
抽出解除 レス栞

459
(2): 03/05/04 10:03 ID:??? AAS
まだ、僕チン、言いたいことある。僕チンは、利用者の立場。
>>86
LaTeX使うとlatex2htmlで簡単にhtmlにできてしまう。
よって、メンドイpdfなんか使わん。
質問1:
pdfをテキスト化するのは、どうしてます?
例えば、pdf形式のmanualとか論文とかDLして、取っておきたい
とき、軽いテキストファイルにしたい(検索も他のと一括して
できるから)というときですね。
htmlなら、まあ、そのまま取っといても容量少ないからいいん
省6
460
(1): 03/05/04 17:15 ID:??? AAS
>>459
複雑な数式でもhtml化できるの?
461
(1): [age] 03/05/04 17:52 ID:??? AAS
>>459
回答1:
PDFはテキスト化できません。ページの先頭から順番に文字が入ってるとは
限らないから。これはPDFを作ったアプリによります。
SDKで文字抽出してみるとわかるが、文字がちゃんととれるのはWindowsの
「メモ帳」で作ったPDFくらいです。
まあ、「文字の前後関係が少しくらい変わっても意味がわかればいい」
程度ならできなくはないですが仕事でこんな要求をする人はいないでしょうね。

回答2:
質問の意味が不明です。貼り付けられるのはPDFの中のテキストのことですか?
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.034s