[過去ログ] 文字コード総合スレ Part12 (1002レス)
前次1-
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
1: デフォルトの名無しさん [sage] 2018/12/16(日) 12:38:15 ID:VlX3xGEw(1/7) AAS
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 2chスレ:tech
文字コード総合スレ part2 2chスレ:tech
文字コード総合スレ part3 2chスレ:tech
文字コード総合スレ part4 2chスレ:tech
 (スレ再利用)UnicodeとUTF-8の違いは? 2chスレ:tech
 (隔離スレ)UnicodeとUTF-8の違いは? その2 2chスレ:tech
文字コード総合スレ part5 2chスレ:tech
文字コード総合スレ part6 2chスレ:tech
文字コード総合スレ part7 2chスレ:tech
文字コード総合スレ part8 2chスレ:tech
文字コード総合スレ part9 2chスレ:tech
文字コード総合スレ Part10 2chスレ:tech
文字コード総合スレ Part11 2chスレ:tech
2
(1): デフォルトの名無しさん [sage] 2018/12/16(日) 12:40:36 ID:VlX3xGEw(2/7) AAS
■参考サイト
Unicode Home Page
外部リンク:www.unicode.org
Java Character Encodings
外部リンク:www.ingrid.org
euc.JP: tech docs, BeOS tools
外部リンク:euc.jp
IANA: Character Sets
外部リンク:www.iana.org
Legacy Encoding Project
外部リンク:sourceforge.jp
JIS X 4061
日本語文字列照合順番
外部リンク:www.jisc.go.jp
3: デフォルトの名無しさん [sage] 2018/12/16(日) 12:45:08 ID:VlX3xGEw(3/7) AAS
■これまでに行われた議論
・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。Unicodeでは機種依存文字ではない。
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉
・ところでケータイのUnicode対応度って実際どうよ? → 対応済み
・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。
・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が
 Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。
・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。
・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。
 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。
・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。
・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。
・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る?
・Unicodeのzipが文字化けする。→Windows 7は公式パッチで対応可能。8以降は標準対応
4: デフォルトの名無しさん [sage] 2018/12/16(日) 12:46:00 ID:VlX3xGEw(4/7) AAS
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。
・Unicodeサニタイズが面倒になるのか
5: デフォルトの名無しさん [sage] 2018/12/16(日) 12:46:16 ID:VlX3xGEw(5/7) AAS
もうひとつの過去スレ:
文字コード統一スレ 1文字目
2chスレ:tech

隔離スレ:
UnicodeとUTF-8の違いは?
2chスレ:tech
UnicodeとUTF-8の違いは? その2
2chスレ:tech
UnicodeとUTF-8の違いは? その2
2chスレ:tech
UnicodeとUTF-8の違い4(インディアン隔離スレ)
2chスレ:tech
6: デフォルトの名無しさん [sage] 2018/12/16(日) 12:48:18 ID:VlX3xGEw(6/7) AAS
■ライブラリ
ICU - International Components for Unicode
外部リンク:site.icu-project.org
mlang
外部リンク[aspx]:msdn.microsoft.com
iconv
外部リンク:www.gnu.org
ICU
外部リンク:www.icu-project.org
NKF32.DLL (非推奨)
外部リンク[html]:www.vector.co.jp
7: デフォルトの名無しさん [sage] 2018/12/16(日) 12:49:13 ID:VlX3xGEw(7/7) AAS
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいは外部リンク[php]:masaka.dw.land.toとか。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.042s