BTRON仕様OSとUNICODEの多言語を語るスレ (560レス)
上下前次1-新
398(1): 02/09/24 13:46 AAS
>>397
いや、俺が韓国と書いたのは互換漢字(重複符号化)のことではなく、
Extension Cのソース(高麗大蔵経)のこと。
399: 02/09/24 20:25 AAS
UnicodeとGB18030が収録する文字が結果的に
同じであったとしても、2バイト固定とか言いながら
代理ペアとかで妙な形で建て増ししてる前者よりは
最初から可変長の後者の方が潔くって好き。
使えねえけど。
400: 02/09/24 20:54 AAS
GB 18030こそ究極の建て増しだろ。
それにサロゲートペアのほうが
先行キャラクタと後続キャラクタの区別がはっきりしている分、
GB 18030の方式よりスマートだと思うが。
401(1): 02/09/25 01:10 AAS
ところで数値実体参照でユニコード以外扱う方法ってないの?
402: 02/09/25 11:16 AAS
>>401
標準化機関にネジ込めばいいんじゃねぇの ?
403(1): 02/09/25 12:48 AAS
W3CのHTMLでISO 10646以外の実体参照を定義しろってのは無理な話。
でも、勝手に使っちゃってもSGML・XML的にはOKなんじゃないの。
文字鏡の実体参照あたり、けっこういろんな人が使ってると思うけど。
404(2): 02/09/26 01:33 AAS
逆に、どんなエンコードでもHTMLならISO10646 BMPの
文字は数値実態参照で書けるのだから、エンコード自体に
ISO10646 BMPに含まれない文字を含むものを使えば、
ISO10646 BMP+αの文書を作成できるね。
405(1): 02/09/26 19:37 AAS
>>404
HTMLの数値文字参照がBMP限定だという話のソースきぼんぬ。
406: 02/09/28 15:17 AAS
限定とは誰も言っていない罠
407: 02/09/29 05:17 AAS
>>403
エンコードは登録されてるの以外を使うはダメさ。
基本はISO 2022だからエンコードした文字以外をISO 10646から探すか、構造を借りて無関係に実態参照を張るほうがよいかと(UTF2000や文字境)
>>404
UCS-4を前提にしてるっぽいからBMP限定じゃないよ〜ん
408: 02/09/29 11:40 AAS
>構造を借りて無関係に実態参照を張るほうがよいかと(UTF2000や文字境)
そこら辺の規格ってあったら知りたい。
というかISO 2022登録(ISOREG?)コードって実体参照で使えるの?
409: 02/09/30 10:23 AAS
> というかISO 2022登録(ISOREG?)コードって実体参照で使えるの?
一部を除き使えない。
Unicode は、0から255までは ISO 8859 と同じ。HTML 3.xまでは、
実体参照は ISO 8859 を指してた。
410: 02/09/30 12:57 AAS
そういや、TRONのアレもアレだな。&Txxyyyy;とかってやつ。
411(1): 02/10/02 00:30 AAS
ふと思って、 ISO 10646 を調べたんだけど、群オクテットの最上位ビット
は、0ですね。
てことは GB18030 の4バイト集合の部分とは重ならないで、共存可能で合っ
てまつか?
412: 02/10/02 08:38 AAS
ISO10646とGB18030を同時に使えるエンコード方式を
策定するってか
413: 02/10/02 09:00 AAS
バイトストリームだけ見て UTF-* と GB18030 系って区別可能?
414: 02/10/02 12:37 AAS
>>411
32ビット1バイトのUCS-4(UTF-32)と
8ビット1バイトのGB 18030「4バイト集合」が
32ビット単位で見れば重ならないということに
何か意味があるか?
415: 02/10/06 09:44 AAS
そのまま一緒にしてISO10646とGB18030の文字集合を
併せたエンコードを捏造できるってことでは?
現状、文字は全て重複してるけど。
416: 02/10/07 11:34 AAS
実際に使われる文字のほとんどは2バイト集合と1バイト集合のほうなので、
4バイト集合だけUCS-4と共存させても無意味でしょ。
つか、すべての文字を共存させることができたとしても
やっぱり無意味だけどさ。
417: 02/10/09 18:51 AAS
>>405
W3Cの文書ではこうある
外部リンク[html]:www.w3.orgの5.1
HTML uses … the Universal Character Set (UCS), defined in [ISO10646].
…
The character set defined in [ISO10646] is character-by-character equivalent to Unicode ([UNICODE])
外部リンク[html]:www.w3.org
[UNICODE]
The Unicode Consortium. "The Unicode Standard, Version 3.0"…
つまり、超BMPを含んでいる。
省5
上下前次1-新書関写板覧索設栞歴
あと 143 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.009s