文字コード総合スレ part8

[過去ﾛｸﾞ] 文字コード総合スレ part8 (1001ﾚｽ)
上下前次 1-新

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

1: 2012/11/30(金)13:16 AAS
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、ShiftJIS、JIS、EUC、Uincode、 UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 2chｽﾚ:tech
文字コード総合スレ part2 2chｽﾚ:tech
文字コード総合スレ part3 2chｽﾚ:tech
文字コード総合スレ part4 2chｽﾚ:tech
（スレ再利用）UnicodeとUTF-8の違いは？ 2chｽﾚ:tech
（隔離スレ）UnicodeとUTF-8の違いは？　その2 2chｽﾚ:tech
文字コード総合スレ part5 2chｽﾚ:tech
文字コード総合スレ part6 2chｽﾚ:tech
文字コード総合スレ part7 2chｽﾚ:tech

2: 2012/11/30(金)13:19 AAS
待ってたよ！
動画ﾘﾝｸ[YouTube]

3(2): 2012/11/30(金)14:18 AAS
■参考サイト
Unicode Home Page
外部ﾘﾝｸ:www.unicode.org
Java Character Encodings
外部ﾘﾝｸ:www.ingrid.org
euc.JP: tech docs, BeOS tools
外部ﾘﾝｸ:euc.jp
ISO-IR - 2.8.1 Coding systems with Standard return
外部ﾘﾝｸ[htm]:www.itscj.ipsj.or.jp
ISO-IR - 2.8.2 Coding Systems without Standard return
外部ﾘﾝｸ[htm]:www.itscj.ipsj.or.jp
IANA: Character Sets
外部ﾘﾝｸ:www.iana.org
Legacy Encoding Project
外部ﾘﾝｸ:sourceforge.jp
CP50220
森山さんの説明
外部ﾘﾝｸ[html]:lists.sourceforge.jp
JISX4061
日本語文字列照合順番
外部ﾘﾝｸ:www.jisc.go.jp

4(4): 2012/11/30(金)14:19 AAS
■これまでに行われた議論
・WinでCP50220 は Unicode からマルチバイト文字への変換でいわゆる半角カタカナを全角カタカナに置き換え
　内部的には Unicode -> CP932 -> CP5022ｘって変換な気もする
・人名をソートかけたらバストサイズ順の並びになる？
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい（統計的に文字の出現確率なんかを調べる）
・PC-98x1シリーズのMS-DOSはShift_JISだが漢字ROMはJIS、変換は何処で行っていた？
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か？。MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　Macではフォントによっては表示されないし、フォントによっては表示される
・Shift_JISと名乗っているCP932やISO-2022-JPと名乗っているCP50220を表示（Unicodeに変換）する際に
　機種依存文字はサポートされるか？
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF（アイヌ語表記用小書きカタカナ）が入ってない件
・なぜ携帯業界はunicode化しないのか？
・このスレへの書き込みはブラウザが2chへ送り出す時点でUnicodeからShift_JISに変換しているのか
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい

5(2): 2012/11/30(金)14:19 AAS
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏＋恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離（中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか）
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは？
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
　U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
　ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
　中国ではってレベルじゃねーぞ。
・Windows Vista での「IME パッド - 文字一覧」の「JIS X 0213 （1面）」のバグ
　UTF-16: 0x304B 0x309A →　Unicode: U+FD61809A　（間違い）　（ISO/IEC10646はU+10FFFFまで）
　サロゲートペアからコードポイントを引き出す計算を無理やり適用（間違い）
　((0x304B - 0xD800) << 10) + (0x309A - 0xDC00) + 0x10000が 0xFD61809A になる。
・文字コードではインドカレーは飲み物か否か。カレーパンうまうま。
・CJK混在の漢字環境ってどうやって、切り分ければいいの？　→　ムリです。
・Winzipで保存されるファイル名が文字化け→zipではコードページ情報が無い。直接zipファイルから切り出せ
・Unicodeは言語情報を直接扱わない。多言語の混在表現は（unicodeでは）できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが　→　ムリです。
・Unicodeサニタイズが面倒になるのか

6(1): 2012/11/30(金)14:20 AAS
・SJISとUNICODEの判別はどのようにすればいいですか？BOM。無ければ、統計判断。ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ？　→　ウンコマークもUnicodeに追加されるんだな。
・WindowsXP でフォルダに使用できないフォルダ名はどうやって判定
　　→　ちょっとアホな方法だけど、%TEMP% フォルダの下で実際に作ってみて。本当に作成できるかどうかで判断。
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
　Windows7では表示されない。　→　和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・WindowsXP SP3でMicrosoftのJIS2004フォント環境でサロゲートペア文字が表示されない。→
　コントロールパネル-地域と言語のオプション-[言語]タブで
　「複合文字や右から左方向に書く言語 (タイ語を含む) のファイルをインストールする」にチェック
・URLの%で続く2桁の0-9、A-Fへの変換は、UTF-8→urlencodeによる。RFC1738を嫁。
・菊紋、桐紋、葵紋などは文字か？海栗コードへの挿入は難しい。そこでTRONだ！！
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
　陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。　→　ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る？
・shift-jisからUTF-8変換でサイズ1.5倍。でも圧縮すれば平均10％増加程度。用途に合わせて使うべし。
・「wchar_tは>>849の嫁。>>849の許可無くしてUTF16だの32だの無理矢理突っ込むのは許さん。」
・電子演算機では文字化けなんて飾りです。UTF-8/UTF16の人にはそれがわからんのですよ。

7: 2012/11/30(金)14:28 AAS
テンプレ乙でござるよ

8: 2012/11/30(金)15:02 AAS
もうひとつの過去スレ:
文字コード統一スレ 1文字目
2chｽﾚ:tech

隔離スレ:
UnicodeとUTF-8の違いは？
2chｽﾚ:tech
UnicodeとUTF-8の違いは？　その2
2chｽﾚ:tech
UnicodeとUTF-8の違いは？　その2
2chｽﾚ:tech
UnicodeとUTF-8の違い4(インディアン隔離スレ)
2chｽﾚ:tech

9(1): 2012/11/30(金)15:13 AAS
■ライブラリ
IBM Globalization - ICU
外部ﾘﾝｸ:www-306.ibm.com
NKF32.DLL
外部ﾘﾝｸ[html]:www.vector.co.jp
外部ﾘﾝｸ[html]:www1.ttcn.ne.jp
バベル
外部ﾘﾝｸ:tricklib.com
バベルの文字コード判定で使ってる日本語文書内での各文字の出現頻度データです。
外部ﾘﾝｸ[csv]:tricklib.com
mlang
外部ﾘﾝｸ[aspx]:msdn.microsoft.com
iconv
外部ﾘﾝｸ:www.gnu.org
ICU
外部ﾘﾝｸ:www.icu-project.org

10: 2012/11/30(金)15:14 AAS
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
　表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か？MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
　MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac（内部Unicodeアプリ）は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ（U+FFFD）になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
　charset=CP932で送信される場合とISO-2022-JP（もどき）で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
　U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
　U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
　U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
　U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
　U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
　解決策：取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
　MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
　再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う（機種依存文字等）。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
　'0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
　あるいは外部ﾘﾝｸ[php]:masaka.dw.land.toとか。

11(1): 2012/11/30(金)15:15 AAS
JTC1/SC2/WG2 - ISO/IEC 10646 - UCS
外部ﾘﾝｸ:std.dkuug.dk

ISO/IEC JTC1/SC2/WG2/IRG
Ideographic Rapporteur Group
外部ﾘﾝｸ:appsrv.cse.cuhk.edu.hk

日本の委員 (JSC2)
外部ﾘﾝｸ[pdf]:www.itscj.ipsj.or.jp

12: 2012/11/30(金)18:18 AAS
スレ立てサンキュ

13: 2012/12/03(月)21:21 AAS
西夏文字、女文字、インダス文字、女真文字なんかはまだなんだな。
日本や中国の研究者頑張れ。

上下前次 1-新書関写板覧索設栞歴

あと 988 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.028s