文字コード総合スレ part15 (413レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
336: デフォルトの名無しさん [sage] 2025/07/26(土) 08:13:11.69 ID:PF0bui/v >>335 うむ、意図が分からん 「斉」は独立コ ードも与え、IVDにも登録、 「葛」は独立コー ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな 実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる 無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、 仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな (大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる) > ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) 検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、 プログラム側には全く問題ないだろうさ ただ、入力側が正しく入力できるかは大問題だろうけどさ 単一の文字コー ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て? (例:16準拠の場合、15を完全に満たすのか、そうでないのか) C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/336
337: デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3 >>336 最近の仕様だけ見たら混乱するよな − もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった − その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された − でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした − 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した − unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった − 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定 http://mevius.5ch.net/test/read.cgi/tech/1723861080/337
341: デフォルトの名無しさん [] 2025/07/27(日) 10:08:59.26 ID:4jy4lfp7 >>336 単純な例で カ と 力 だな こんなの一緒にされたら困る http://mevius.5ch.net/test/read.cgi/tech/1723861080/341
358: デフォルトの名無しさん [sage] 2025/07/31(木) 07:09:00.90 ID:1FIA24UI >>349 > 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ > 直接的には文字コードの問題ではない その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ 実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ つまりunicodeが > 異端 (>>340:俺) で、 > 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺) に現時点でなってるのも事実ではないか PDFに関してはパチもん使わずAdobe純正品使え、だろうが、 unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが (だから足抜けは許さねえ!!!なコードヤクザになるのも納得) そもそもサロゲートペアも初段階で必須だと判断出来たはず (だからutf-16はナンセンスだとも) > https://skawa68.com/2024/07/31/post-81230/ 大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、 常識的には、いや無理でしょ、余裕無さすぎ、だし (よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf) あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか? なら中国が独立コードに拘る理由もありえる、というか、 これだと事実上utf-32も捨てる事になる まあほぼutf-8なので今更どうでもいいのも事実だが http://mevius.5ch.net/test/read.cgi/tech/1723861080/358
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
1.007s*