文字コード総合スレ part15

文字コード総合スレ part15 (470ﾚｽ)
上下前次 1-新

1: デフォルトの名無しさん [] 2024/08/17(土)11:18 ID:VHa7+i59(1/2)
文字コードについて語り合うスレです

451: デフォルトの名無しさん [sage] 08/23(土)12:45 ID:0WleoknD(4/5)
>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい

452(1): デフォルトの名無しさん [sage] 08/23(土)14:58 ID:/wnxORck(2/4)
あ、すみません

> CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話

ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首（補助）に登場するのは事実ですが

453(1): デフォルトの名無しさん [sage] 08/23(土)15:25 ID:0WleoknD(5/5)
>>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形

454: デフォルトの名無しさん [sage] 08/23(土)15:38 ID:/wnxORck(3/4)
>>450
> 「氵」とかは伝統的な漢字じゃないので（辞典類の索引くらいしか）単独の用例が存在していなかったのが理由じゃないかな

なるほど、そんな感じですかね

455: デフォルトの名無しさん [sage] 08/23(土)15:54 ID:/wnxORck(4/4)
>>453
基底クラスに派生クラスが3つ、みたいな感じですかね

部首周りは思ったより複雑ですなw

456(1): デフォルトの名無しさん [sage] 08/25(月)08:21 ID:y+b0tsbW(1/2)
今回の話はほぼ部首由来だけど、そうでないのも少しありそう

U+6AF8（櫸）は「ケヤキ」らしいがこれ以外にU+237F1（𣟱）という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05（欅）、つくりの下側が「手」

ここらへんの文字がちゃんと扱えるのかのテストでもある

457: デフォルトの名無しさん [sage] 08/25(月)08:51 ID:y+b0tsbW(2/2)
ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか

まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31（樱）を使ってしまう可能性もある

458: デフォルトの名無しさん [sage] 08/25(月)08:56 ID:4e0IOAiN(1/2)
そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる（IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり
あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる

459(1): デフォルトの名無しさん [sage] 08/25(月)15:28 ID:WuqY0NEW(1)
>>456
Unicodeは各国にある規格を取り込む、というのはまあまあやっていて
U+6AF8は台湾で使われる字、U+237F1は日本などで用例のある字、
で本来グリフにも差があるらしい

460(1): デフォルトの名無しさん [sage] 08/25(月)18:00 ID:4e0IOAiN(2/2)
>>459
U+6B05 は旁の下部が手なのでおいておいて

もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる（日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、
二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる

IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された
このせいで日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる（中国語フォントなら二本と三本で別の字形になる

461(1): デフォルトの名無しさん [sage] 08/26(火)15:23 ID:yhOjjAzx(1)
>>460
例えば
>IVS なんか知るか
U+237F1が入ったのはIVSより前じゃね?

462: デフォルトの名無しさん [sage] 08/26(火)17:54 ID:Bsu3S+Ad(1)
>>461
ちょうど同じ時期に並行して議論されてたんだよ
正式な規格書にコード位置が載ったのは Ext-B の方が少しだけ早かったかも

463(1): デフォルトの名無しさん [sage] 09/10(水)21:44 ID:UOM2W4Ny(1)
Unicode 17.0 Release Announcement
https://blog.unicode.org/2025/09/unicode-170-release-announcement.html
「Unicode 17.0」がリリース〜8つの新しい絵文字、日中韓(CJK)文字の拡充も継続
サウジアラビア通貨「リヤル」の記号も
https://forest.watch.impress.co.jp/docs/news/2046141.html

464(2): デフォルトの名無しさん [sage] 09/10(水)22:23 ID:I5buXTbc(1)
>>463
漢字10万字突破とか笑える事態は置いとくとして
誰だ？ウサ耳の絵文字とか登録したやつは

465: デフォルトの名無しさん [sage] 09/10(水)23:25 ID:qn6dqRwx(1)
https://asset.watch.impress.co.jp/img/wf/docs/2046/141/image3_l.png

466(1): デフォルトの名無しさん [sage] 09/11(木)14:48 ID:/BCensIn(1)
>>464
合成でバニーガールとバニーボーイを使い分けられてジェンダーフリー、
ってそこまでしてw

絆創膏のデフォルトの色をどうするか、みたいな話もあったり
めんどくさい世の中だ
そういえばインド人から送られてきたthumbs-upの絵文字は茶色かった

467: デフォルトの名無しさん [sage] 09/11(木)15:09 ID:UUDIZIcP(1)
>>466
ああ、なるほど
「うさ耳」固有の絵文字が追加されたわけではなくて
今まであった「バニーガール」の絵文字を合成で使うと「うさ耳」の追加として処理するルールが追加されたのか

468(1): デフォルトの名無しさん [sage] 09/15(月)20:12 ID:oqgL1+ac(1)
>>464
しかしリアルな中国の辞書でも10万字を超えるのはないはずだけど
10万字突破ってどういう文字集合になってるんすかねえ
あと文字情報と汎用電子が追加したIVDはこの場合カウントされるのかな?

469(1): デフォルトの名無しさん [sage] 09/16(火)03:15 ID:HhaKFttb(1)
>>468
手元に「汉字海」の2018年版があるけど、10万2千字超えてるよ
音未詳、義未詳、同〇〇、みたいな漢字が多数掲載

470: デフォルトの名無しさん [sage] 09/17(水)13:27 ID:JKPLurCd(1)
>>469
なるほど。しかしそのうちどれだけにUnicodeのコードポイントがあるのか
興味深いですね

ちなみにこの場合の「海」は中心が点々で表示されるべきなんだろうけど
異体字セレクタにある点々の海を使うのは正解じゃないんでしたっけ

上下前次 1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.008s