文字コード総合スレ part15 (455レス)
上下前次1-新
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
1: 2024/08/17(土)11:18 ID:VHa7+i59(1/2) AAS
文字コードについて語り合うスレです
426: 08/20(水)16:44 ID:rn5+zHEj(1) AAS
さんざんマウント取る言い方してきて、勝った負けたの勝負じゃないだとw
クソダサ
427(1): 08/20(水)17:25 ID:6T31eh60(1/2) AAS
>>423
SJISなんてものを褒め称えるとはマイクロソフト信者かね
昔からメールなどネット上ではいわゆるJISコード(ISO-2022-JP)が使われてきてこちらが国際的にも通用する主流でUNIXなどではEUC-JPが標準
もちろん今では国際的にUNICODEで統一され符号化はネット上もファイル保存もUTF8だがマイクロソフトさんは
428: 08/20(水)18:20 ID:gymbsza2(2/2) AAS
unicode 出る前からフォントは複数の文字コード対応マップで多言語化されれたことを知らないんだろうな
429: 08/20(水)19:22 ID:6T31eh60(2/2) AAS
SJISが世界の全てだった人なんだろうね
430: 08/20(水)21:05 ID:Qtedysji(1/2) AAS
>>427
JISがメールで使われてたのは7bit透過だからだぞ
SJIS信者だと思うのは自由だが、PDFのコピペに関しては、今風に言うと現場猫だよ
PDF仕様猫:グリフが重複して使われるフォントなんて普通ないからヨシッ
PDF出力アプリ猫:同上、ヨシッ
google猫:PDF出力アプリが対応してればグリフが重複してもヨシッ
unicode猫:同じ字(でもないが)に複数の文字コードを割り当てても、アプリかフォントが対応してればヨシッ
MS:普通、部首素片と通常文字は別グリフだろ、これで何も問題なくなるし
フォントがどうであれ、アプリ側で対応出来るのは事実なので、アプリが一番悪い
次に悪いのはフォントで、手抜きでなければ部首素片と通常文字は別グリフになるように思う
ただしそもそものunicodeの思想が間違ってて、そもそも統合漢字としてるCJKの通常文字、
日本人と台湾人と中国人の美的感覚は異なるだろうから、同一グリフで何とかなると考えてる所に無理がある
ただ、欧米も同様にアルファベットの美的感覚が微妙には異なるはずなので、連中が問題ないからCJKも問題ないと思ったのかな、とは思う
(ここらへんは文化の結合度によるが、欧米ほど人が交流してれば美的感覚もそれなりに共有されてるのかもしれん)
というか、具体的に言うと「骨」(0x9aa8)や「曜」(0x66dc)、これらは美的感覚ではなくモロに別形だが
CJK統合漢字という根本的なとこから間違ってるよねと
というかこれらが別コードとして登録されなかった理由は何なんだ?今更異体字ダーとかやってるのに
431: 08/20(水)21:08 ID:Qtedysji(2/2) AAS
ん?2行連続空行は削除されるようになったのか?
まあちと読みにくくなってるが、よろしく
432: 08/21(木)02:20 ID:X0ZtFPzr(1) AAS
一つ一つの技術を正しく理解していないから、文字通り「個人の感想ですよね」という
まあ5ちゃんだし、酒飲み話みたいのもアリだとは思うけど
正しい知識が元になっていればそれは役に立つ話にもなる
一方読む方は間違いを間違いと見抜く力が.... って決してひろゆき信者ではないw
433(1): 08/21(木)02:56 ID:D3EzSAOJ(1) AAS
私も世界にSJISさえアレば良かった人間です(過去形)。欲しい文字は外字にドット打ってました。
ROMに第2水準程度しか乗っていない8ビットや16ビット世代のマシンでUTF8を構築するのって、現実的に可能なのかしら。
興味本位の疑問だけど。
434: 08/21(木)04:47 ID:HC849JP7(1) AAS
交換用符号としての扱いは楽だけど
ROMのコードがJISだから変換マップをオンメモリにするのは厳しそう
索引付きでないと性能でないと思うから
これもROMで持てるならあり
もちろん幅や方向、合字なんかは扱えない
435: 08/21(木)05:18 ID:mNeC3fTJ(1) AAS
>>433
そこはSJISとUTF8といった符号化方式の比較でなくてJIS漢字コードとユニコードの比較で十分
漢字ROMのデータ収録順序はJIS漢字コードの機械的変換できる範囲内だろうから
ユニコードからJIS漢字コードへのマッピング
436(2): 08/21(木)05:33 ID:lFCpHxq7(1) AAS
いわゆる半角カタカナ等(JIS X 0201)と全角漢字等(JIS X 0208)のほとんどは規則的変換できるようにユニコード内に収容されている
例外は一部の記号や文字のみ
したがって漢字ROM読み出しもほとんどは規則的変換できて例外のみ対応で実用的かな
437: 08/21(木)06:14 ID:BA9KDvPD(1) AAS
漢字は厳しいだろ
偶然だが半角の途中まではEF BDを前置するとUTF8
A1 。 EF BD A1
AF ッ EF BD AF
B0 ー EF BD B0
B1 ア EF BD B1
B2 イ EF BD B2
B3 ウ EF BD B3
B4 エ EF BD B4
B5 オ EF BD B5
BF ソ EF BD BF
438(1): 08/21(木)08:42 ID:YIWSP+jR(1/2) AAS
>>436
JIS/SJIS/EUC: 外部リンク[htm]:manuals.ricoh.com
unicode: 外部リンク[html]:www.asahi-net.or.jp
さすがゆとりZ、無敵すぎ
439: 08/21(木)09:07 ID:4FAr+8B9(1) AAS
>>436
昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した
お前、そのAIだったりしないか?
440(1): 08/21(木)16:15 ID:jm5fSTrV(1) AAS
>>438
>JIS/SJIS/EUC: 外部リンク[htm]:manuals.ricoh.com
区点コードで文字入力とはシブい。しかし字形が2004じゃないのは果たして
マニュアルだけの話でプリントで使うフォントとかは別なのかな。にしても
441: 08/21(木)21:08 ID:YIWSP+jR(2/2) AAS
>>440
何が言いたいのか分からんが、こちらの意図を明確にしておくと、
ただ単に「JIS 漢字表」でググって並び順が見やすいのを選んだだけ
コードなら以下が見やすいかと
外部リンク[html]:www.infonet.co.jp
JIS等は漢字もあいうえお順(ricohのサイトはまんまアイウエオで見やすい)
てかunicodeって何順?
442: 08/22(金)21:59 ID:SVHvHw/K(1) AAS
外部リンク[html]:www.asahi-net.or.jp
>UnicodeのCJK統合漢字は、概ね部首順(部首内は画数順)に並んでいます
443(1): 08/23(土)02:24 ID:/wnxORck(1/4) AAS
しかしこれらの部首って、例のUnicodeの漢字部首のコードポイントに頼らなくても
出せるのね。元々各国の文字コードに部首のコードがあってそれがUnicodeに
引き継がれているようで
JISでも第二水準にちょいちょい部首が入っている。冫(にすい)とか
だがしかし「さんずい」や「しんにょう」などは第二水準にはない
これって何故でしたっけ。まさか さんずい=水に「包摂」とか? ???
444(2): 08/23(土)06:47 ID:0WleoknD(1/5) AAS
>>443
氵も 辶 もJISにあるだろ (JIIS補助漢字または第4水準だが、包摂ではない)
もちろん Unicode も部首素片以外に漢字側にも登録がある
冫だけ第2水準なのは教科書とかで使用例があったから(うろ覚え)
445(2): 08/23(土)07:30 ID:0WleoknD(2/5) AAS
大元の理由が知りたいというい意味ならこの辺は漢字の歴史に由来していて
「冫」は甲骨の時代から独立した漢字で「氷」は字源的には「冫+水」の「冰」の略字
「氵」は「水」が部首になった時の省略形で昔の漢字では2つは全く同じ字形
unicode でも「冫」は漢字としてのみ登録されていて、部首素片(CJK Radical)には無かったはず
446(1): 08/23(土)08:40 ID:baE/iOEd(1) AAS
>>444
「第二水準内で」(第四水準がなかった時代に)という意味です
第四がある現在では包摂の適用が変わりましたので
>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E)
どうやら康熙部首がメインでCJK部首が補助のようですが、件の「長」は何故か両方に
と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
そんなんわかるかあw
447(1): 08/23(土)08:52 ID:wdSAuDDp(1) AAS
>>444
「第二水準内で」(第四水準がなかった時代に)という意味です
第三以降では包摂の適用が変わったので、同列には語れません
>>445
JISの中の人がどう考えていたのか気になりました
「冫」は康熙部首の方にありますね(U+2F0E)
どうやら康熙部首がメインでCJK部首にはそのバリエーションが
なのに「長」は何故か両方に同じものが入っている??
と思いきや、CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
そんなんわかるかあw
448: 08/23(土)08:56 ID:yzoynflT(1) AAS
失礼、投稿が失敗したと思いダブリました(&少し書き直した)
449(1): 08/23(土)09:10 ID:0dLwdQt1(1) AAS
>>446
> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
ならばgoogle猫が手抜きで糞フォントを作ったのがPDFコピペ文字化けの元凶だな
日本人の美的感覚では、(この辺は習字を見れば分かりやすい)
「長」の縦棒は、上よりも下のほうが少し左側(下のほうが広く見える)が美しいとされるので、
真面目にフォントを作れば同じグリフになることはない
450(1): 08/23(土)12:38 ID:0WleoknD(3/5) AAS
>>447
そういう意味なら「康熙部首」はもともと部品じゃなくて普通に使われる漢字なのでJIS的には漢字として登録されるのは問題ない
(康煕部首を漢字以外に登録しているunicode が変というかローマ数字の ⅰ がアルファベットの i と別にあるみたいな変さ)
「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな
国語の教科書とかでも康煕準拠で「冫の部」とういう表記は使われるけど「氵の部」という部首は存在してなくて「水の部」と書かれてる
第3、第4水準の包摂基準は原則として第1、第2の基準を援用してるので第2水準で包摂されていたら第4水準に追加できないので、逆説的に第4水準に追加されたことは包摂されていなかった解釈になる(補助漢字はかなりあやしい
451: 08/23(土)12:45 ID:0WleoknD(4/5) AAS
>>449
文字をどのようにデザインするかはフォントごとの勝手、文字コードでは規定していない
いやならそのフォントを使わなければ良い
ゴシック体で画数と意識してられるかアホらしい
452(1): 08/23(土)14:58 ID:/wnxORck(2/4) AAS
あ、すみません
> CJK部首の「長」は縦の棒が上から下まで繋がっている(画数が-1)とかいう話
ちょっとこの部分はガセかもしないので皆さん一旦忘れてもらえますか?
「長」が康熙部首とCJK部首(補助)に登場するのは事実ですが
453(1): 08/23(土)15:25 ID:0WleoknD(5/5) AAS
>>452
unicode には4つの「長」の部首素片が登録されてるメインに1つ、補助に3つ
多分メインのやつが字形を無視した意味上の部首素片で、補助のやつが unicode の包摂基準に従って分離された字形
454: 08/23(土)15:38 ID:/wnxORck(3/4) AAS
>>450
> 「氵」とかは伝統的な漢字じゃないので(辞典類の索引くらいしか)単独の用例が存在していなかったのが理由じゃないかな
なるほど、そんな感じですかね
455: 08/23(土)15:54 ID:/wnxORck(4/4) AAS
>>453
基底クラスに派生クラスが3つ、みたいな感じですかね
部首周りは思ったより複雑ですなw
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.023s