文字コード総合スレ part15 (410レス)
前次1-
抽出解除 レス栞

リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
205
(1): デフォルトの名無しさん [sage] 2025/01/20(月) 23:00:53.63 ID:fw0guZsp(3/5) AAS
>>204
204(3): デフォルトの名無しさん [sage] 2025/01/20(月) 22:51:08.98 ID:uZ5HVjRv(1/3) AAS
WTF-8 どうしを結合するときは終端処理をしてサロゲートの変換をしないといけない
UTF-8 のように単純に結合することできない
両サロゲートが含まれてるものはWTF-8ではない
そうそうそれそれ。ようやく話が通じそうな人が来てくれた
で、現実には?と
247
(1): デフォルトの名無しさん [sage] 2025/01/25(土) 12:36:14.63 ID:IEhZAzOs(4/5) AAS
>>246
246(1): デフォルトの名無しさん [sage] 2025/01/25(土) 12:08:02.89 ID:oQSzfWfA(3/5) AAS
>>245
それも正しい
WindowsもLinuxも正しいユニコード以外を許容している
だからUTF-16やUTF-8を前提としてはいけない
そのためWTF-16やWTF-8あるいは何らか他の枠組みの導入でようやく対応できる

その時に当たり前の三つの同値
WTF-8で起こりうること = WTF-16で起こりうること = Windowsで起こりうること
この事実を理解できるかどうか

これを理解できずにWTF-8で新たな問題が生じると勘違いしているバカがWTF-8を批判していた
= Windows で起こりうることに拘るのは何でだ?
UTF-8 と WTF-8 は別物なのに同じように扱ったら問題が起きる可能性がある OS とは独立
375
(1): デフォルトの名無しさん [sage] 2025/08/01(金) 08:03:21.63 ID:S37h8L9Z(2/4) AAS
>>373
373(1): デフォルトの名無しさん [sage] 2025/08/01(金) 07:02:06.81 ID:7kydH/9J(1) AAS
>>372
グリフが完全に同じ時は同じ文字扱いなのがPDFで、
グリフが完全に同じでも違う文字の時があるのがunicodeだぞ

とはいえ、お前には理解出来ないことは理解したので終わりでいいが
SJIS の話してんのに unicode 関係ないだろ
お前は PDF のこと全く分かっってないだろ
PDF はお前が思ってるほど単純なしくみじゃないぞ

CMap って聞いたことあるか? そのあたりから内部構造勉強してみ
/ActualText どころか ToUnicode CMap すらない PDF だって普通にあるんだよ(unicode 以前のフォントが unicode 対応してる訳ないだろ
PDFの内部の文字の記録は unicode ではなくてグリフID というフォント内の格納番号なんだよ、一部の日中韓フォント使った場合は CID というまた別のコードで記載されてることもある
383: デフォルトの名無しさん [sage] 2025/08/02(土) 09:03:03.63 ID:tv/q+z7t(1) AAS
>>382
382(1): デフォルトの名無しさん [sage] 2025/08/02(土) 08:50:01.67 ID:jagzAmj3(1/4) AAS
糞長文書いてる暇があったらプログラム書けよ
そうすればすぐに unicode 関係ない
絶対に失敗しない検索も作れないってわかるぞ
そもそも暗号化されてもいないのに一切検索できないPDFをはくツールすらあるぞ
それも初心者あるあるだな
賢いお前にはこれで十分通じるはず(キリッ
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.022s