文字コード総合スレ part15

文字コード総合スレ part15 (462ﾚｽ)
上下前次 1-新

433(1): デフォルトの名無しさん [sage] 2025/08/21(木) 02:56:06.57 ID:D3EzSAOJ(1) AAS
私も世界にSJISさえアレば良かった人間です(過去形)。欲しい文字は外字にドット打ってました。
ROMに第2水準程度しか乗っていない8ビットや16ビット世代のマシンでUTF8を構築するのって、現実的に可能なのかしら。
興味本位の疑問だけど。

434: デフォルトの名無しさん [sage] 2025/08/21(木) 04:47:17.94 ID:HC849JP7(1) AAS
交換用符号としての扱いは楽だけど
ROMのコードがJISだから変換マップをオンメモリにするのは厳しそう
索引付きでないと性能でないと思うから
これもROMで持てるならあり
もちろん幅や方向、合字なんかは扱えない

435: デフォルトの名無しさん [sage] 2025/08/21(木) 05:18:08.01 ID:mNeC3fTJ(1) AAS
>>433
そこはSJISとUTF8といった符号化方式の比較でなくてJIS漢字コードとユニコードの比較で十分
漢字ROMのデータ収録順序はJIS漢字コードの機械的変換できる範囲内だろうから
ユニコードからJIS漢字コードへのマッピング

436(2): デフォルトの名無しさん [sage] 2025/08/21(木) 05:33:29.34 ID:lFCpHxq7(1) AAS
いわゆる半角カタカナ等(JIS X 0201)と全角漢字等(JIS X 0208)のほとんどは規則的変換できるようにユニコード内に収容されている
例外は一部の記号や文字のみ
したがって漢字ROM読み出しもほとんどは規則的変換できて例外のみ対応で実用的かな

437: デフォルトの名無しさん [sage] 2025/08/21(木) 06:14:19.45 ID:BA9KDvPD(1) AAS
漢字は厳しいだろ
偶然だが半角の途中まではEF BDを前置するとUTF8
　A1　｡　EF BD A1

　AF　ｯ　EF BD AF
　B0　ｰ　EF BD B0
　B1　ｱ　EF BD B1
　B2　ｲ　EF BD B2
　B3　ｳ　EF BD B3
　B4　ｴ　EF BD B4
　B5　ｵ　EF BD B5

　BF　ｿ　EF BD BF

438(1): デフォルトの名無しさん [sage] 2025/08/21(木) 08:42:01.26 ID:YIWSP+jR(1/2) AAS
>>436
JIS/SJIS/EUC: 外部ﾘﾝｸ[htm]:manuals.ricoh.com
unicode: 外部ﾘﾝｸ[html]:www.asahi-net.or.jp
さすがゆとりZ、無敵すぎ

439: デフォルトの名無しさん [sage] 2025/08/21(木) 09:07:08.19 ID:4FAr+8B9(1) AAS
>>436
昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した
お前、そのAIだったりしないか？

440(1): デフォルトの名無しさん [sage] 2025/08/21(木) 16:15:00.95 ID:jm5fSTrV(1) AAS
>>438
>JIS/SJIS/EUC: 外部ﾘﾝｸ[htm]:manuals.ricoh.com

区点コードで文字入力とはシブい。しかし字形が2004じゃないのは果たして
マニュアルだけの話でプリントで使うフォントとかは別なのかな。にしても

441: デフォルトの名無しさん [sage] 2025/08/21(木) 21:08:42.64 ID:YIWSP+jR(2/2) AAS
>>440
何が言いたいのか分からんが、こちらの意図を明確にしておくと、
ただ単に「JIS 漢字表」でググって並び順が見やすいのを選んだだけ
コードなら以下が見やすいかと
外部ﾘﾝｸ[html]:www.infonet.co.jp

JIS等は漢字もあいうえお順(ricohのサイトはまんまアイウエオで見やすい)
てかunicodeって何順？

442: デフォルトの名無しさん [sage] 2025/08/22(金) 21:59:54.85 ID:SVHvHw/K(1) AAS
外部ﾘﾝｸ[html]:www.asahi-net.or.jp
＞UnicodeのCJK統合漢字は、概ね部首順(部首内は画数順)に並んでいます

443(1): デフォルトの名無しさん [sage] 2025/08/23(土) 02:24:50.51 ID:/wnxORck(1/4) AAS
しかしこれらの部首って、例のUnicodeの漢字部首のコードポイントに頼らなくても
出せるのね。元々各国の文字コードに部首のコードがあってそれがUnicodeに
引き継がれているようで

JISでも第二水準にちょいちょい部首が入っている。冫（にすい）とか
だがしかし「さんずい」や「しんにょう」などは第二水準にはない
これって何故でしたっけ。まさかさんずい＝水に「包摂」とか? ???

444(2): デフォルトの名無しさん [sage] 2025/08/23(土) 06:47:36.46 ID:0WleoknD(1/5) AAS
>>443
氵も辶もJISにあるだろ (JIIS補助漢字または第4水準だが、包摂ではない)
もちろん Unicode も部首素片以外に漢字側にも登録がある
冫だけ第2水準なのは教科書とかで使用例があったから（うろ覚え）

445(2): デフォルトの名無しさん [sage] 2025/08/23(土) 07:30:15.06 ID:0WleoknD(2/5) AAS
大元の理由が知りたいというい意味ならこの辺は漢字の歴史に由来していて
「冫」は甲骨の時代から独立した漢字で「氷」は字源的には「冫+水」の「冰」の略字
「氵」は「水」が部首になった時の省略形で昔の漢字では2つは全く同じ字形

unicode でも「冫」は漢字としてのみ登録されていて、部首素片(CJK Radical)には無かったはず

446(1): デフォルトの名無しさん [sage] 2025/08/23(土) 08:40:59.48 ID:baE/iOEd(1) AAS
>>444
「第二水準内で」（第四水準がなかった時代に）という意味です
第四がある現在では包摂の適用が変わりましたので

>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E）

どうやら康熙部首がメインでCJK部首が補助のようですが、件の「長」は何故か両方に

と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話
そんなんわかるかあw

447(1): デフォルトの名無しさん [sage] 2025/08/23(土) 08:52:37.93 ID:wdSAuDDp(1) AAS
>>444
「第二水準内で」（第四水準がなかった時代に）という意味です
第三以降では包摂の適用が変わったので、同列には語れません

>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E）

どうやら康熙部首がメインでCJK部首にはそのバリエーションが
なのに「長」は何故か両方に同じものが入っている??

と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話
そんなんわかるかあw

448: デフォルトの名無しさん [sage] 2025/08/23(土) 08:56:22.55 ID:yzoynflT(1) AAS
失礼、投稿が失敗したと思いダブリました（&少し書き直した）

449(1): デフォルトの名無しさん [sage] 2025/08/23(土) 09:10:23.66 ID:0dLwdQt1(1) AAS
>>446
> CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話
ならばgoogle猫が手抜きで糞フォントを作ったのがPDFコピペ文字化けの元凶だな
日本人の美的感覚では、(この辺は習字を見れば分かりやすい)
「長」の縦棒は、上よりも下のほうが少し左側(下のほうが広く見える)が美しいとされるので、
真面目にフォントを作れば同じグリフになることはない

450(1): デフォルトの名無しさん [sage] 2025/08/23(土) 12:38:53.36 ID:0WleoknD(3/5) AAS
>>447
そういう意味なら「康熙部首」はもともと部品じゃなくて普通に使われる漢字なのでJIS的には漢字として登録されるのは問題ない
（康煕部首を漢字以外に登録しているunicode が変というかローマ数字の ⅰ がアルファベットの i と別にあるみたいな変さ)

「氵」とかは伝統的な漢字じゃないので（辞典類の索引くらいしか）単独の用例が存在していなかったのが理由じゃないかな
国語の教科書とかでも康煕準拠で「冫の部」とういう表記は使われるけど「氵の部」という部首は存在してなくて「水の部」と書かれてる

第3、第4水準の包摂基準は原則として第1、第2の基準を援用してるので第2水準で包摂されていたら第4水準に追加できないので、逆説的に第4水準に追加されたことは包摂されていなかった解釈になる（補助漢字はかなりあやしい

451: デフォルトの名無しさん [sage] 2025/08/23(土) 12:45:02.17 ID:0WleoknD(4/5) AAS
>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい

452(1): デフォルトの名無しさん [sage] 2025/08/23(土) 14:58:11.95 ID:/wnxORck(2/4) AAS
あ、すみません

> CJK部首の「長」は縦の棒が上から下まで繋がっている（画数が-1）とかいう話

ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首（補助）に登場するのは事実ですが

453(1): デフォルトの名無しさん [sage] 2025/08/23(土) 15:25:52.11 ID:0WleoknD(5/5) AAS
>>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形

454: デフォルトの名無しさん [sage] 2025/08/23(土) 15:38:45.17 ID:/wnxORck(3/4) AAS
>>450
> 「氵」とかは伝統的な漢字じゃないので（辞典類の索引くらいしか）単独の用例が存在していなかったのが理由じゃないかな

なるほど、そんな感じですかね

455: デフォルトの名無しさん [sage] 2025/08/23(土) 15:54:04.18 ID:/wnxORck(4/4) AAS
>>453
基底クラスに派生クラスが3つ、みたいな感じですかね

部首周りは思ったより複雑ですなw

456(1): デフォルトの名無しさん [sage] 2025/08/25(月) 08:21:51.64 ID:y+b0tsbW(1/2) AAS
今回の話はほぼ部首由来だけど、そうでないのも少しありそう

U+6AF8（櫸）は「ケヤキ」らしいがこれ以外にU+237F1（𣟱）という字もあり、
この両者に同じグリフを使う場合がある
ちなみに例の坂道グループのはU+6B05（欅）、つくりの下側が「手」

ここらへんの文字がちゃんと扱えるのかのテストでもある

457: デフォルトの名無しさん [sage] 2025/08/25(月) 08:51:42.49 ID:y+b0tsbW(2/2) AAS
ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている
サイトが散見される.。まあ無理もないことではある
しかしそれだと日本の情報を十分に集められなかったのではなかろうか

まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か?
しかし今度は中国本土の人がU+6A31（樱）を使ってしまう可能性もある

上下前次 1-新書関写板覧索設栞歴

あと 5 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.028s