文字コード総合スレ part15

46(1): デフォルトの名無しさん [sage] 2024/09/08(日) 19:11:11.78 ID:We5vf4ux(1) AAS
Unicodeで数字とアルファベットはフォント違いや上付きや下付きの文字があって
丸囲みでもデザインの違いが何種類もあるよね
こういう装飾的な物は文字コードの方でやるのか
HTMLなどの別の規格でやるのかどっちがいいんだろうね
文字コードの方でやるとプレーンテキストでも
文を見やすくできるけど文字の検索がしづらくなるんだよね

118(2): デフォルトの名無しさん [] 2024/12/06(金) 10:53:27.12 ID:zw4qy2EX(1) AAS
ﾊﾝｶｸｶﾀｶﾅ.txtと
ハンカクカタカナ.txtは
区別されると困るか区別して欲しいかは個人の好みだな

316(3): デフォルトの名無しさん [sage] 2025/07/20(日) 21:42:09.27 ID:v9zpB8iu(1) AAS
Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは？
外部ﾘﾝｸ:togetter.com

337(1): デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3(1) AAS
>>336
最近の仕様だけ見たら混乱するよな

− もともとは同じ文字の別字形については昔の資産（unicode が作られるより前の20世紀の文字コード）にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか？」と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定

395(2): デフォルトの名無しさん [sage] 2025/08/04(月) 12:31:11.59 ID:Dprx6XuC(1/4) AAS
一部訂正
× コピペに関しては、文字コードを保存してないのが問題で、(>>387)
○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、

PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する
316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、
PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題ないPDFが作成される

だから発生条件として、

・糞フォントで、違う文字コードで同じグリフを使いまくり

が必要であり、これを誘発しているのはunicodeの仕様
だからPDFがボロいと言うより、
unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ
(なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、
PDF出力アプリがポンコツなのもほぼ間違いない
376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、
単国籍な文書《≒大半のケース》で顕在化するのは防げる)

結論としては、やっぱunicode糞じゃね？と思うが

以前の文字コード：このコードはこう表示される程度の知識で全く問題ない
unicode：正しい作法(正規化等)を知らないと色々誤動作する