文字コード総合スレ part13

[過去ﾛｸﾞ] 文字コード総合スレ part13 (1002ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

746(3): デフォルトの名無しさん [sage] 2023/02/21(火) 20:04:41.27 ID:NFhPk2T2(1) AAS
>>743

743(3): デフォルトの名無しさん [] 2023/02/21(火) 19:33:57.30 ID:VTx8hARX(1/2) AAS
>>740
UTF-8は文字によって1バイトで済むなら1バイトで表現する。

これはアルファベットを使用している欧米人には都合がいいが、漢字を使っている日本人、中国人などでは、その漢字は何バイトなのか常に意識しなくてはならなくなる。

近い将来、4バイトで統一した方が楽という話になる。
特に中国が世界の中心になると、中華人民共和国が推奨しているキャラクタセット GB2312は2バイトで一文字をあらわすキャラクタセット。

日本語のように1～2バイトで表現するから、UTF-8のように1バイト文字、2バイト文字、3バイト文字、4バイト文字、5バイト文字と何バイト使うのかわからないキャラクタセットは嫌う。

中国語EUCとUTF-8は相性が悪い。

寝ぼけるな。
欧米でもアクセント付きの文字やちゃんとしたクォートとか使えばバイト数増える。
さらに合成アクセント、合成文字、異体字セレクタ、絵文字合成、国旗とかもろもろあって固定長にはならない。UTF32使っても可変長。

748(1): デフォルトの名無しさん [] 2023/02/21(火) 20:11:40.47 ID:KCRD8vTD(1/2) AAS
>>746
UTF-32は一文字が32ビットで、4バイト単位で文字を表現するから、漢字一文字を4バイトで表現している中国のキャラクタセットと相性がいい。

UTF-8は一文字が何バイトなのかわからないから困るんだぞ？

日本語や中国語は、UTF-8だと2バイト文字というものがほぼ存在しない。

1バイト文字か3～4バイト文字の混合だったから、UTF-8よりUTF-32の方がシンプルになる。

さすがに32ビットではなく、64ビットにしようというのは、かなり未来の話だろう。

749(1): デフォルトの名無しさん [] 2023/02/21(火) 20:13:32.50 ID:KCRD8vTD(2/2) AAS
>>746
話が矛盾しているぞ。UTF-8もUTF-32も同じ批判ができるなら、UTF-32の方がシンプルだろ？

751: デフォルトの名無しさん [sage] 2023/02/21(火) 22:10:48.02 ID:6Lh94JJt(2/2) AAS
おそらくだけど>743は知識が古すぎて
>>746が挙げてる用語がそれぞれどういう意味を持ってるのか何一つ理解できていないだろう
これでは会話が成立しない
もしくは知識があるうえで>748や>749みたいなことを言い出してる可能性もないわけではないが
仮にそうであったとすれば頭が悪すぎてなおのこと会話が成立しないと思われる

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 1.739s*