文字コード総合スレ part15 (405レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

372
(1): 08/01(金)01:22 ID:S37h8L9Z(1/4)調 AAS
アホ過ぎる「検索失敗しないのがPDFの仕様だ」とか小学生レベル
失敗するのは人間。
見えてる文字で検索したつもりでも内部的には別の文字になってるので検索に引掛からなかったり、その逆で見た目が全然違う文字が検索でひっかかたりする。原因はコピペの失敗と同じ 。
375
(1): 08/01(金)08:03 ID:S37h8L9Z(2/4)調 AAS
>>373
SJIS の話してんのに unicode 関係ないだろ
お前は PDF のこと全く分かっってないだろ
PDF はお前が思ってるほど単純なしくみじゃないぞ

CMap って聞いたことあるか? そのあたりから内部構造勉強してみ
/ActualText どころか ToUnicode CMap すらない PDF だって普通にあるんだよ(unicode 以前のフォントが unicode 対応してる訳ないだろ
PDFの内部の文字の記録は unicode ではなくてグリフID というフォント内の格納番号なんだよ、一部の日中韓フォント使った場合は CID というまた別のコードで記載されてることもある
377
(2): 08/01(金)09:32 ID:S37h8L9Z(3/4)調 AAS
お前は一回 PDF 検索を実装してみろ、失敗しない検索が実装できるか分かるぞ
検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか?
379
(1): 08/01(金)23:52 ID:S37h8L9Z(4/4)調 AAS
>>378
俺は実際にPDFの検索組んだことあるんだが、お前のその妄想はどっから来たのか知りたい
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 1.005s*