文字コード総合スレ part15 (410レス)
前次1-
抽出解除 レス栞

リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
133: デフォルトの名無しさん [] 2024/12/07(土) 14:01:25.11 ID:8ekNK8XT(1) AAS
>他の方法が駆逐されるわけじゃなく新たなバリエーションを増やすだけ

ほんそれ
249
(1): デフォルトの名無しさん [sage] 2025/01/25(土) 13:07:40.11 ID:IEhZAzOs(5/5) AAS
>>248
248(1): デフォルトの名無しさん [sage] 2025/01/25(土) 13:00:31.67 ID:oQSzfWfA(4/5) AAS
>>247
どのOSも正しいユニコード以外を許容している
したがってUTF-8/16以外も扱えなければならない
そして非UTF-8/16があった時にそれを認識して区別して扱えなければならない
その区別ができないと既存のUTF-8/16部分にもうっかり混入させて汚染を広げてしまう
この重要性が理解できるかね?

RustではUTF-8とWTF-8(など非ユニコード)は明確に別の型となっているため安全性が保証される
両者を扱えつつ型システムにより必ず区別できる
だからOSとは独立の文字コードの扱いの問題
もっといえば文字コードを正しく扱えないアプリの問題
OSのせいにするな
330
(1): デフォルトの名無しさん [sage] 2025/07/25(金) 09:21:41.11 ID:5+UAzUxo(1/2) AAS
>>329
329(1): デフォルトの名無しさん [sage] 2025/07/25(金) 07:07:21.05 ID:yWMF+wv2(1/4) AAS
>>328
それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう

ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと?
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい

そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし

unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん
元々の unicode は実践主義、御都合主義ともいう。
過去に別の文字として同時に実装された記録があれば別の文字として登録。
391: デフォルトの名無しさん [sage] 2025/08/04(月) 06:18:28.11 ID:QkMIbgCE(1/2) AAS
さてと

PDFの中を覗いてみたけど、/ActualTextという要素がある(場合がある)のね
Acrobatなどは検索やコピペのときにこれを参照するのかな?
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.019s