文字コード総合スレ part15 (413レス)
上下前次1-新
抽出解除 レス栞
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
3: デフォルトの名無しさん [sage] 2024/08/17(土) 11:32:03.55 ID:4RGMPEY4(1) AAS
しゃぶれよ
47: デフォルトの名無しさん [sage] 2024/09/09(月) 00:03:34.55 ID:7afCe/O3(1) AAS
>>4646(1): デフォルトの名無しさん [sage] 2024/09/08(日) 19:11:11.78 ID:We5vf4ux(1) AAS
Unicodeで数字とアルファベットはフォント違いや上付きや下付きの文字があって
丸囲みでもデザインの違いが何種類もあるよね
こういう装飾的な物は文字コードの方でやるのか
HTMLなどの別の規格でやるのかどっちがいいんだろうね
文字コードの方でやるとプレーンテキストでも
文を見やすくできるけど文字の検索がしづらくなるんだよね
最近は記号や絵文字とかまでを登録するようなってるので普通の文字じゃなかたりするのも多数ある
一見アラビア数字に見えても実際は飾り記号(dingbat)だったり数学記号(math symbol)だったりするのも多い
(フォント違いに見えるのは数学記号)
(同じ丸数字が複数あるように見えるのは修飾数字と飾り記号)
日本からだと全角数字とかフォントによって見かけだけ違うのもあるし
120: デフォルトの名無しさん [sage] 2024/12/06(金) 13:01:51.55 ID:tlsLperd(1) AAS
>>118118(2): デフォルトの名無しさん [] 2024/12/06(金) 10:53:27.12 ID:zw4qy2EX(1) AAS
ハンカクカタカナ.txtと
ハンカクカタカナ.txtは
区別されると困るか区別して欲しいかは個人の好みだな
自分はまったく別物だろうという考えだが、逆にそれを同じと思う人がいるというのに驚きだ
140: デフォルトの名無しさん [] 2024/12/09(月) 11:25:01.55 ID:uh4vUAM3(1) AAS
波ダッシュ(〜)と全角チルダ(〜)は違う文字
152: デフォルトの名無しさん [sage] 2025/01/11(土) 13:26:51.55 ID:ftPdDy1W(1/4) AAS
なんか文字コード絡みでWindowsに特大級のセキュリティホールが見つかったぽい
外部リンク:blog.orange.tw
317(3): デフォルトの名無しさん [sage] 2025/07/20(日) 22:29:37.55 ID:0FYiUEbf(1) AAS
>>316文字コードの問題ではなく単なるバグ
より正確にいうと大昔からある PDF のフォントの使い方の問題
PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる
フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる
複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる
338: デフォルトの名無しさん [sage] 2025/07/26(土) 13:22:34.55 ID:IhScHI/D(1) AAS
>>337337(1): デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3(1) AAS
>>336
最近の仕様だけ見たら混乱するよな
− もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定
日本側の状況はさもありなん
全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが
中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな
検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに
とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが
> オレオレ unicode の利用を中国国内では強制することにする
それは中国規格なので勝手にしろでいいと思うが
> unicode 側が折れて
となるのは、unicode陣営は統一コードの夢を見続けている、ということか
なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが)
非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな
まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい
現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない
可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね
396(1): デフォルトの名無しさん [sage] 2025/08/04(月) 12:54:11.55 ID:B+SwrOCa(2/5) AAS
>>395395(2): デフォルトの名無しさん [sage] 2025/08/04(月) 12:31:11.59 ID:Dprx6XuC(1/4) AAS
一部訂正
× コピペに関しては、文字コードを保存してないのが問題で、(>>387)
○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、
PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する
316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、
PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題ないPDFが作成される
だから発生条件として、
・糞フォントで、違う文字コードで同じグリフを使いまくり
が必要であり、これを誘発しているのはunicodeの仕様
だからPDFがボロいと言うより、
unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ
(なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、
PDF出力アプリがポンコツなのもほぼ間違いない
376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、
単国籍な文書《≒大半のケース》で顕在化するのは防げる)
結論としては、やっぱunicode糞じゃね?と思うが
以前の文字コード:このコードはこう表示される程度の知識で全く問題ない
unicode:正しい作法(正規化等)を知らないと色々誤動作する
お前、まだあきらめて無かったのか
昔から1対1なんてことはないよ
グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる、逆に同じグリフIDでも異なる文字を表現している
何度も言われただろ、理解できない部分を読み飛ばしてるのか?
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.023s