文字コード総合スレ part13

[過去ﾛｸﾞ] 文字コード総合スレ part13 (1002ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

221(1): デフォルトの名無しさん [sage] 2021/10/02(土) 16:28:43.87 ID:qz0ghb/n(1/4) AAS
>>216

216(3): デフォルトの名無しさん [sage] 2021/10/02(土) 00:21:19.15 ID:mWEaacyi(1) AAS
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。

CJK統合が困るならサロゲートペアを使いなさい

222: デフォルトの名無しさん [sage] 2021/10/02(土) 16:30:41.53 ID:qz0ghb/n(2/4) AAS
>>216 >>217

217(3): デフォルトの名無しさん [sage] 2021/10/02(土) 03:12:57.27 ID:AUpOKXgX(1) AAS
＞書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ！」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。

異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから

223: デフォルトの名無しさん [sage] 2021/10/02(土) 16:36:36.22 ID:qz0ghb/n(3/4) AAS
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
　かちょう
　がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ

224(1): デフォルトの名無しさん [sage] 2021/10/02(土) 16:40:36.25 ID:qz0ghb/n(4/4) AAS
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.049s