文字コード総合スレ part15 (462レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
1: デフォルトの名無しさん [] 2024/08/17(土) 11:18:00.01 ID:VHa7+i59 文字コードについて語り合うスレです http://mevius.5ch.net/test/read.cgi/tech/1723861080/1
433: デフォルトの名無しさん [sage] 2025/08/21(木) 02:56:06.57 ID:D3EzSAOJ 私も世界にSJISさえアレば良かった人間です(過去形)。欲しい文字は外字にドット打ってました。 ROMに第2水準程度しか乗っていない8ビットや16ビット世代のマシンでUTF8を構築するのって、現実的に可能なのかしら。 興味本位の疑問だけど。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/433
434: デフォルトの名無しさん [sage] 2025/08/21(木) 04:47:17.94 ID:HC849JP7 交換用符号としての扱いは楽だけど ROMのコードがJISだから変換マップをオンメモリにするのは厳しそう 索引付きでないと性能でないと思うから これもROMで持てるならあり もちろん幅や方向、合字なんかは扱えない http://mevius.5ch.net/test/read.cgi/tech/1723861080/434
435: デフォルトの名無しさん [sage] 2025/08/21(木) 05:18:08.01 ID:mNeC3fTJ >>433 そこはSJISとUTF8といった符号化方式の比較でなくてJIS漢字コードとユニコードの比較で十分 漢字ROMのデータ収録順序はJIS漢字コードの機械的変換できる範囲内だろうから ユニコードからJIS漢字コードへのマッピング http://mevius.5ch.net/test/read.cgi/tech/1723861080/435
436: デフォルトの名無しさん [sage] 2025/08/21(木) 05:33:29.34 ID:lFCpHxq7 いわゆる半角カタカナ等(JIS X 0201)と全角漢字等(JIS X 0208)のほとんどは規則的変換できるようにユニコード内に収容されている 例外は一部の記号や文字のみ したがって漢字ROM読み出しもほとんどは規則的変換できて例外のみ対応で実用的かな http://mevius.5ch.net/test/read.cgi/tech/1723861080/436
437: デフォルトの名無しさん [sage] 2025/08/21(木) 06:14:19.45 ID:BA9KDvPD 漢字は厳しいだろ 偶然だが半角の途中まではEF BDを前置するとUTF8 A1 。 EF BD A1 AF ッ EF BD AF B0 ー EF BD B0 B1 ア EF BD B1 B2 イ EF BD B2 B3 ウ EF BD B3 B4 エ EF BD B4 B5 オ EF BD B5 BF ソ EF BD BF http://mevius.5ch.net/test/read.cgi/tech/1723861080/437
438: デフォルトの名無しさん [sage] 2025/08/21(木) 08:42:01.26 ID:YIWSP+jR >>436 JIS/SJIS/EUC: https://manuals.ricoh.com/mfp/p_manual/MPC6004JPN/ja/intro/int/r_cjr041.htm unicode: https://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/cjku_klist.html さすがゆとりZ、無敵すぎ http://mevius.5ch.net/test/read.cgi/tech/1723861080/438
439: デフォルトの名無しさん [sage] 2025/08/21(木) 09:07:08.19 ID:4FAr+8B9 >>436 昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した お前、そのAIだったりしないか? http://mevius.5ch.net/test/read.cgi/tech/1723861080/439
440: デフォルトの名無しさん [sage] 2025/08/21(木) 16:15:00.95 ID:jm5fSTrV >>438 >JIS/SJIS/EUC: https://manuals.ricoh.com/mfp/p_manual/MPC6004JPN/ja/intro/int/r_cjr041.htm 区点コードで文字入力とはシブい。しかし字形が2004じゃないのは果たして マニュアルだけの話でプリントで使うフォントとかは別なのかな。にしても http://mevius.5ch.net/test/read.cgi/tech/1723861080/440
441: デフォルトの名無しさん [sage] 2025/08/21(木) 21:08:42.64 ID:YIWSP+jR >>440 何が言いたいのか分からんが、こちらの意図を明確にしておくと、 ただ単に「JIS 漢字表」でググって並び順が見やすいのを選んだだけ コードなら以下が見やすいかと http://www.infonet.co.jp/ueyama/ip/binary/x0208txt.html JIS等は漢字もあいうえお順(ricohのサイトはまんまアイウエオで見やすい) てかunicodeって何順? http://mevius.5ch.net/test/read.cgi/tech/1723861080/441
442: デフォルトの名無しさん [sage] 2025/08/22(金) 21:59:54.85 ID:SVHvHw/K https://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/cjku_radical.html >UnicodeのCJK統合漢字は、概ね部首順(部首内は画数順)に並んでいます http://mevius.5ch.net/test/read.cgi/tech/1723861080/442
443: デフォルトの名無しさん [sage] 2025/08/23(土) 02:24:50.51 ID:/wnxORck しかしこれらの部首って、例のUnicodeの漢字部首のコードポイントに頼らなくても 出せるのね。元々各国の文字コードに部首のコードがあってそれがUnicodeに 引き継がれているようで JISでも第二水準にちょいちょい部首が入っている。冫(にすい)とか だがしかし「さんずい」や「しんにょう」などは第二水準にはない これって何故でしたっけ。まさか さんずい=水に「包摂」とか? ??? http://mevius.5ch.net/test/read.cgi/tech/1723861080/443
444: デフォルトの名無しさん [sage] 2025/08/23(土) 06:47:36.46 ID:0WleoknD >>443 氵も 辶 もJISにあるだろ (JIIS補助漢字または第4水準だが、包摂ではない) もちろん Unicode も部首素片以外に漢字側にも登録がある 冫だけ第2水準なのは教科書とかで使用例があったから(うろ覚え) http://mevius.5ch.net/test/read.cgi/tech/1723861080/444
445: デフォルトの名無しさん [sage] 2025/08/23(土) 07:30:15.06 ID:0WleoknD 大元の理由が知りたいというい意味ならこの辺は漢字の歴史に由来していて 「冫」は甲骨の時代から独立した漢字で「氷」は字源的には「冫+水」の「冰」の略字 「氵」は「水」が部首になった時の省略形で昔の漢字では2つは全く同じ字形 unicode でも「冫」は漢字としてのみ登録されていて、部首素片(CJK Radical)には無かったはず http://mevius.5ch.net/test/read.cgi/tech/1723861080/445
446: デフォルトの名無しさん [sage] 2025/08/23(土) 08:40:59.48 ID:baE/iOEd >>444 「第二水準内で」(第四水準がなかった時代に)という意味です 第四がある現在では包摂の適用が変わりましたので >>445 JISの中の人がどう考えていたのか気になりました 「冫」は康熙部首の方にありますね(U+2F0E) どうやら康熙部首がメインでCJK部首が補助のようですが、件の「長」は何故か両方に と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話 そんなんわかるかあw http://mevius.5ch.net/test/read.c
gi/tech/1723861080/446
447: デフォルトの名無しさん [sage] 2025/08/23(土) 08:52:37.93 ID:wdSAuDDp >>444 「第二水準内で」(第四水準がなかった時代に)という意味です 第三以降では包摂の適用が変わったので、同列には語れません >>445 JISの中の人がどう考えていたのか気になりました 「冫」は康熙部首の方にありますね(U+2F0E) どうやら康熙部首がメインでCJK部首にはそのバリエーションが なのに「長」は何故か両方に同じものが入っている?? と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話 そんなんわかる
かあw http://mevius.5ch.net/test/read.cgi/tech/1723861080/447
448: デフォルトの名無しさん [sage] 2025/08/23(土) 08:56:22.55 ID:yzoynflT 失礼、投稿が失敗したと思いダブリました(&少し書き直した) http://mevius.5ch.net/test/read.cgi/tech/1723861080/448
449: デフォルトの名無しさん [sage] 2025/08/23(土) 09:10:23.66 ID:0dLwdQt1 >>446 > CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話 ならばgoogle猫が手抜きで糞フォントを作ったのがPDFコピペ文字化けの元凶だな 日本人の美的感覚では、(この辺は習字を見れば分かりやすい) 「長」の縦棒は、上よりも下のほうが少し左側(下のほうが広く見える)が美しいとされるので、 真面目にフォントを作れば同じグリフになることはない http://mevius.5ch.net/test/read.cgi/tech/1723861080/449
450: デフォルトの名無しさん [sage] 2025/08/23(土) 12:38:53.36 ID:0WleoknD >>447 そういう意味なら「康熙部首」はもともと部品じゃなくて普通に使われる漢字なのでJIS的には漢字として登録されるのは問題ない (康煕部首を漢字以外に登録しているunicode が変というかローマ数字の ⅰ がアルファベットの i と別にあるみたいな変さ) 「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな 国語の教科書とかでも康煕準拠で「冫の部」とういう表記は使われるけど
「氵の部」という部首は存在してなくて「水の部」と書かれてる 第3、第4水準の包摂基準は原則として第1、第2の基準を援用してるので第2水準で包摂されていたら第4水準に追加できないので、逆説的に第4水準に追加されたことは包摂されていなかった解釈になる(補助漢字はかなりあやしい http://mevius.5ch.net/test/read.cgi/tech/1723861080/450
451: デフォルトの名無しさん [sage] 2025/08/23(土) 12:45:02.17 ID:0WleoknD >>449 文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない いやならそのフォントを使わなければ良い ゴシック体で画数と意識してられるかアホらしい http://mevius.5ch.net/test/read.cgi/tech/1723861080/451
452: デフォルトの名無しさん [sage] 2025/08/23(土) 14:58:11.95 ID:/wnxORck あ、すみません > CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話 ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか? 「長」が康熙部首とCJK部首(補助)に登場するのは事実ですが http://mevius.5ch.net/test/read.cgi/tech/1723861080/452
453: デフォルトの名無しさん [sage] 2025/08/23(土) 15:25:52.11 ID:0WleoknD >>452 unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ 多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形 http://mevius.5ch.net/test/read.cgi/tech/1723861080/453
454: デフォルトの名無しさん [sage] 2025/08/23(土) 15:38:45.17 ID:/wnxORck >>450 > 「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな なるほど、そんな感じですかね http://mevius.5ch.net/test/read.cgi/tech/1723861080/454
455: デフォルトの名無しさん [sage] 2025/08/23(土) 15:54:04.18 ID:/wnxORck >>453 基底クラスに派生クラスが3つ、みたいな感じですかね 部首周りは思ったより複雑ですなw http://mevius.5ch.net/test/read.cgi/tech/1723861080/455
456: デフォルトの名無しさん [sage] 2025/08/25(月) 08:21:51.64 ID:y+b0tsbW 今回の話はほぼ部首由来だけど、そうでないのも少しありそう U+6AF8(櫸)は「ケヤキ」らしいがこれ以外にU+237F1(𣟱)という字もあり、 この両者に同じグリフを使う場合がある ちなみに例の坂道グループのはU+6B05(欅)、つくりの下側が「手」 ここらへんの文字がちゃんと扱えるのかのテストでもある http://mevius.5ch.net/test/read.cgi/tech/1723861080/456
457: デフォルトの名無しさん [sage] 2025/08/25(月) 08:51:42.49 ID:y+b0tsbW ちなみに台湾の日本アイドルファン系のサイトには、U+6AF8を使っている サイトが散見される.。まあ無理もないことではある しかしそれだと日本の情報を十分に集められなかったのではなかろうか まさかそれを嫌って櫻坂に改名したとしたら、なかなかの文字コード通か? しかし今度は中国本土の人がU+6A31(樱)を使ってしまう可能性もある http://mevius.5ch.net/test/read.cgi/tech/1723861080/457
458: デフォルトの名無しさん [sage] 2025/08/25(月) 08:56:46.72 ID:4e0IOAiN そもそも unicode の統合基準がグダグダなので unicode では同じ字形の文字が複数あるのが当然になってる(IVS/IVDも入れると同じ字形の漢字が3つも4つもあったり あと1つのフォントには最大で65536グリフしか登録できないので多くの文字を登録したい場合やフォントサイズを圧縮したい場合は同じ字形は一つのグリフで表すというのも普通のテクニックになってる http://mevius.5ch.net/test/read.cgi/tech/1723861080/458
459: デフォルトの名無しさん [sage] 2025/08/25(月) 15:28:01.56 ID:WuqY0NEW >>456 Unicodeは各国にある規格を取り込む、というのはまあまあやっていて U+6AF8は台湾で使われる字、U+237F1は日本などで用例のある字、 で本来グリフにも差があるらしい http://mevius.5ch.net/test/read.cgi/tech/1723861080/459
460: デフォルトの名無しさん [sage] 2025/08/25(月) 18:00:18.28 ID:4e0IOAiN >>459 U+6B05 は旁の下部が手なのでおいておいて もともとU+6AF8 は横棒二本と横棒三本が統合(unify)されてる(日本語フォントだと三本、中国語フォントだと二本で表示されるのが一般的、 二本と三本を指定したい時は IVS をつけるのがルール、具体的には U+E0100 をつければ日本で一般的な adobe-japan の横棒三本の字体を明示的に示せる IVS なんか知るか独立のコードポイントよこせという大陸様のゴリ押しで、横棒三本が別に U+237F1 に登録された このせいで
日本語フォントで表示すると両方が横棒三本の同じ字形という状態になってる(中国語フォントなら二本と三本で別の字形になる http://mevius.5ch.net/test/read.cgi/tech/1723861080/460
461: デフォルトの名無しさん [sage] 2025/08/26(火) 15:23:22.74 ID:yhOjjAzx >>460 例えば >IVS なんか知るか U+237F1が入ったのはIVSより前じゃね? http://mevius.5ch.net/test/read.cgi/tech/1723861080/461
462: デフォルトの名無しさん [sage] 2025/08/26(火) 17:54:44.18 ID:Bsu3S+Ad >>461 ちょうど同じ時期に並行して議論されてたんだよ 正式な規格書にコード位置が載ったのは Ext-B の方が少しだけ早かったかも http://mevius.5ch.net/test/read.cgi/tech/1723861080/462
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.016s