[過去ログ] 文字コード総合スレ part13 (1002レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
221
(1): デフォルトの名無しさん [sage] 2021/10/02(土) 16:28:43.87 ID:qz0ghb/n(1/4) AAS
>>216
216(3): デフォルトの名無しさん [sage] 2021/10/02(土) 00:21:19.15 ID:mWEaacyi(1) AAS
>>213
日本語において「令」の書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済むし同じコードポイントで良い。aやgのバリエーションの違いに相当。
しかし中国語の「直」の字形は日本ではあまり一般的ではなく、同じものと認識できない可能性が高いから別にすべき。由来が同じでもすでに別物で、pとπのようなもの。

どこまでを同じものと認識するかは言語や文化が違えば当然異なるから、やはり統合漢字は無理がある。
もっと言えば、トルコ語アルファベットの大文字小文字の扱いや、全角半角の同一視の問題も根は同じ。
テキスト中に表を書くための罫線素片が全角と半角を統合とかアホとしか言いようがない。
CJK統合が困るならサロゲートペアを使いなさい
222: デフォルトの名無しさん [sage] 2021/10/02(土) 16:30:41.53 ID:qz0ghb/n(2/4) AAS
>>216>>217
217(3): デフォルトの名無しさん [sage] 2021/10/02(土) 03:12:57.27 ID:AUpOKXgX(1) AAS
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む

それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。
異体字が重要なら異体字セレクタを使いなさい
Winのメモ帳、Macのテキストエディット、Adobe Readerでさえ対応してるのだから
223: デフォルトの名無しさん [sage] 2021/10/02(土) 16:36:36.22 ID:qz0ghb/n(3/4) AAS
>>216
どの文字を同じとみなすかは
JIS X 0208の段階でも問題になってきたし
ISO-8859-*でさえ問題だった
応用ごとに同値関係を定義するしかない
たとえば
 かちょう
 がちょう
は索引で横並びかどうかなど
これは国ごとに応用ごとに違う

この辺りの知識はUnicodeのお陰で劇的に広まった
失敗がなかったなんて極端な事は言わないが
文字処理におけるUnicodeの貢献は大きい
唯一のテストベッド

最近のレスの知識レベルは20年前に戻ったかのようだ
224
(1): デフォルトの名無しさん [sage] 2021/10/02(土) 16:40:36.25 ID:qz0ghb/n(4/4) AAS
>>217
しわ寄せなんてもないですよ
戸籍をデジタル化した時点で
後のUnicodeの文字集合採用ルールに従えば
異体字セレクタで全て扱えるべきですし
そうなっています
典拠がいまだ見つからない文字ですら扱えるべきなんです
どこかでもう使ってるかもしれないから
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.049s