文字コード総合スレ Part12

[過去ﾛｸﾞ] 文字コード総合スレ Part12 (1002ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

3: デフォルトの名無しさん [sage] 2018/12/16(日)12:45:08.07 ID:VlX3xGEw(3/7)
■これまでに行われた議論
・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。Unicodeでは機種依存文字ではない。
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　対応済み
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・Unicodeのzipが文字化けする。→Windows 7は公式パッチで対応可能。8以降は標準対応

5: デフォルトの名無しさん [sage] 2018/12/16(日)12:46:16.07 ID:VlX3xGEw(5/7)
もうひとつの過去スレ:
文字コード統一スレ 1文字目
2chｽﾚ:tech

隔離スレ:
UnicodeとUTF-8の違いは？
2chｽﾚ:tech
UnicodeとUTF-8の違いは？　その2
2chｽﾚ:tech
UnicodeとUTF-8の違いは？　その2
2chｽﾚ:tech
UnicodeとUTF-8の違い4(インディアン隔離スレ)
2chｽﾚ:tech

25: デフォルトの名無しさん [] 2018/12/19(水)16:46:27.07 ID:R6d6JT/9(1)
>>23
バイトオーダーを意識する機会が減ったのは、xmlやjsonなどテキスト形式でデータ受け渡しすることが多くなったから。
テキスト形式ならバイトオーダーを意識せずに済むし、スクリプト言語で扱うのにも便利。

145: デフォルトの名無しさん [sage] 2019/01/24(木)14:09:11.07 ID:CmuJPGgn(1/2)
>>142
俺に言うな。>>138に家
縄文時代の日本語を混在できないとしたら、
それは例えば「文字がない」ことなのに、
Unicodeだから無理みたいな言い方してるんだから

213: デフォルトの名無しさん [] 2019/03/09(土)00:06:34.07 ID:bJz0o3uK(1)
私用領域U+E50Aが渋谷109の絵文字に割り当てられているツイッターさんの前でも同じこと言えんの？
https://twitter.com/muota_here/status/657111322656555008
https://twitter.com/5chan_nel (5ch newer account)

616(1): デフォルトの名無しさん [] 2019/09/01(日)13:42:43.07 ID:k0czTyLP(2/3)
>>612
>まずUTF-16という仕様にはサロゲートペアが最初から含まれてる

あれ、そうだった?　だとしたら、UTF16は最初から破綻していたってことだな。
変なものを作らずにUTF32を導入すべきだった。

>UTF32に完全移行って何を移行するっていうんだ？互換性がないんだから
>既に使われてるものを簡単に変えられるわけがない。

シフトJISからUnicodeへも互換性がないのに移行が進んだだろ。

>UTF32が21bitコードになってしまったのはUTF-8のせいだ

UTF8は可変長だから、32ビットでも表そう思えば表せる。
21ビットになったのはUTF16のせい。

>21bitあれば209万7152文字を表現できるんだから異字体セレクタなしで十分収録できる

収録した記号は他にも色々あるし、U+F0000〜U+10FFFFは外字領域だし、
21ビットだけでは心許ない。

>>613
異字体セレクタは同じコードでもAdobe-Japan1とMoji_Johoで字体が違う
滅茶苦茶な欠陥規格だから、さっさと廃止した方が良い。

622: デフォルトの名無しさん [sage] 2019/09/01(日)15:24:13.07 ID:Cv4S4gQH(2/2)
>>614
MSがSJISやめたら、世の中の既存の文書が
UTF8にでも変わると思ってんの？
魔法ですか？ｗｗｗ

677: デフォルトの名無しさん [sage] 2019/09/15(日)04:11:30.07 ID:LMFjfaUx(1)
見せて！

886: デフォルトの名無しさん [] 2020/02/14(金)17:14:21.07 ID:CPLKNT1n(1)
顔文字より正規表現のためのメタ文字とかあったほうが良いのにね。
まあGoogleじゃ無理か。

993: デフォルトの名無しさん [sage] 2020/07/02(木)23:07:28.07 ID:NYHAh4sv(1)
>>992
区別されてるよ。
「マイクロソフト標準キャラクタセット」で検索すると、
詳しい情報が出てくるよ。

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.049s