[過去ログ]
文字コード総合スレ Part12 (1002レス)
文字コード総合スレ Part12 http://mevius.5ch.net/test/read.cgi/tech/1544931495/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
1: デフォルトの名無しさん [sage] 2018/12/16(日) 12:38:15 ID:VlX3xGEw Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。 プログラマーなら一度は煩わされたことのある文字コードについてのスレ。 UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、 合成文字、ソート、TRON、外字コード、その他について語り合いましょう。 各言語での文字列の扱いについての質問もOKです。 基本マッターリ、ささ、茶でもどうぞ。 ■過去スレ 文字コード総合スレ part1 http://pc11.2ch.net/test/read.cgi/tech/1031028205/ 文字コード総合スレ part2 http://pc11.2ch.net/test/read.cgi/tech/1143375639/ 文字コード総合スレ part3 http://pc11.2ch.net/test/read.cgi/tech/1180250376/ 文字コード総合スレ part4 http://pc11.2ch.net/test/read.cgi/tech/1228052369/ (スレ再利用)UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ (隔離スレ)UnicodeとUTF-8の違いは? その2 http://pc12.2ch.net/test/read.cgi/tech/1274937437/ 文字コード総合スレ part5 http://pc12.2ch.net/test/read.cgi/tech/1236529563/ 文字コード総合スレ part6 http://hibari.2ch.net/test/read.cgi/tech/1278923059/ 文字コード総合スレ part7 http://toro.2ch.net/test/read.cgi/tech/1306595564/ 文字コード総合スレ part8 http://peace.2ch.net/test/read.cgi/tech/1354248962/ 文字コード総合スレ part9 http://peace.2ch.net/test/read.cgi/tech/1401301779/ 文字コード総合スレ Part10 http://mevius.2ch.net/test/read.cgi/tech/1444822140/ 文字コード総合スレ Part11 https://mevius.5ch.net/test/read.cgi/tech/1516629503/ http://mevius.5ch.net/test/read.cgi/tech/1544931495/1
2: デフォルトの名無しさん [sage] 2018/12/16(日) 12:40:36 ID:VlX3xGEw ■参考サイト Unicode Home Page http://www.unicode.org/ Java Character Encodings http://www.ingrid.org/java/i18n/encoding/ euc.JP: tech docs, BeOS tools http://euc.jp/ IANA: Character Sets http://www.iana.org/assignments/character-sets Legacy Encoding Project http://sourceforge.jp/projects/legacy-encoding/ JIS X 4061 日本語文字列照合順番 http://www.jisc.go.jp/ http://mevius.5ch.net/test/read.cgi/tech/1544931495/2
3: デフォルトの名無しさん [sage] 2018/12/16(日) 12:45:08 ID:VlX3xGEw ■これまでに行われた議論 ・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可 ・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか ・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる) ・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題 ・丸付き数字は機種依存文字か?。Unicodeでは機種依存文字ではない。 ・Safari文字コード変換のバグは ・Microsoft文字コード変換のバグは ・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件 ・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい ・SJISとUNICODEの判別はどのようにすればいいですか?BOM。無ければ、統計判断。 ライブラリを使うが吉 ・ところでケータイのUnicode対応度って実際どうよ? → 対応済み ・TwitterのWebインターフェイスからだと、サロゲートペアは2文字としてカウント。140字打てない 。 ・Unicode 5.2で追加されたUnicodeSMP(第1面)、Unicode 5.1で未定義だったSMPのコードポイントや第15、第16面が Windows7では表示されない。 → 和田研細丸ゴシック2004ARIBはARIB外字を含んでいる。 ・元号を安置する場所はJIS第三で確保済み。ウニコードでブロックを確保は政治力次第。 ・元号は個人名ではない。特定の時間軸基準に数える年号を漢字で指す文字。 陛下の崩御後必ずしも元号が追号になるわけではない。むしろ違う場合が多い。昭和54年法律43号の元号法参照。 ・文末でなければ"0"+ASCII7ビット、文末なら"1"+ASCII7ビットというエンコード。 → ヌル1バイトが貴重な時代からの負の遺産。 ・Windows7出荷時に未定義だったコードポイントはフォント入れても豆腐になる。Unicode5.2は表示しない。欝だ。 ・Unicode6ドラフトでPILE_OF_POO文字確定。ウニコードがもはやイミフ。SerifとSans-Serifで幅に違いは出る? ・Unicodeのzipが文字化けする。→Windows 7は公式パッチで対応可能。8以降は標準対応 http://mevius.5ch.net/test/read.cgi/tech/1544931495/3
4: デフォルトの名無しさん [sage] 2018/12/16(日) 12:46:00 ID:VlX3xGEw ・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る ・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない ・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか) ・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES ・UnicodeとUTF-8の違いは? ・日本のCJK Ext.D Submissionに{魚針}が含まれてる件 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針) ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。 中国ではってレベルじゃねーぞ。 ・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか ・Unicode文字列リストを各国言語を考慮してソートしたいんですが → ムリです。 ・Unicodeサニタイズが面倒になるのか http://mevius.5ch.net/test/read.cgi/tech/1544931495/4
5: デフォルトの名無しさん [sage] 2018/12/16(日) 12:46:16 ID:VlX3xGEw もうひとつの過去スレ: 文字コード統一スレ 1文字目 http://pc8.2ch.net/test/read.cgi/tech/1109171258/ 隔離スレ: UnicodeとUTF-8の違いは? http://pc12.2ch.net/test/read.cgi/tech/1177930957/ UnicodeとUTF-8の違いは? その2 http://hibari.2ch.net/test/read.cgi/tech/1274937437/ UnicodeとUTF-8の違いは? その2 http://toro.2ch.net/test/read.cgi/tech/1291075205/ UnicodeとUTF-8の違い4(インディアン隔離スレ) http://toro.2ch.net/test/read.cgi/tech/1342963035/ http://mevius.5ch.net/test/read.cgi/tech/1544931495/5
6: デフォルトの名無しさん [sage] 2018/12/16(日) 12:48:18 ID:VlX3xGEw ■ライブラリ ICU - International Components for Unicode http://site.icu-project.org/home mlang http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx iconv http://www.gnu.org/software/libiconv/ ICU http://www.icu-project.org/ NKF32.DLL (非推奨) http://www.vector.co.jp/soft/win95/util/se020949.html http://mevius.5ch.net/test/read.cgi/tech/1544931495/6
7: デフォルトの名無しさん [sage] 2018/12/16(日) 12:49:13 ID:VlX3xGEw ■単語一覧 ・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある 表現できる文字空間はUTF-8と同じく20ビットとちょっと ・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。 今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。 似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、 素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。 ・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある ・MSでのウニコードとSJIS変換のバグ。 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】 ・SafariでのウニコードとSJIS変換のバグ。 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA ・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで 再変換しているので、それをしなければよい。 ・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。 ・JISのエスケープシーケンスが正しく認識されない本文とか。 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。 あるいはhttp://masaka.dw.land.to/mr/jmr.phpとか。 http://mevius.5ch.net/test/read.cgi/tech/1544931495/7
8: デフォルトの名無しさん [sage] 2018/12/16(日) 17:19:29 ID:0LUE4AGb oo|o|o|||o|o|o|o|||ooo|oo|o|ooooo||o||o|oooo|||o||||o|oo|o|||o|o|o|o|o|oo ooo||o|o|||||||o|o||oo|ooo||ooo|o||oooo|oo|o||oo|||ooo||||oo||ooooo||oo|| oo||ooo|o||o||ooooo|oo|oo|o|o|||o|||||o|o|oo||oo|ooo||o||||o|o||o||o|oooo ooo|||||o|oo|||ooo|o|oo|||||ooooooooooo|||ooo|||o||||oo|oo|||ooo|o||oo||| ooooo|ooo||o|oo|||oooo|oo|||||ooooo||o|||oo|||o|o|o|o||||o|||||oo|oo|oo|o ||o|oo||oooooo||o|oo||o|||ooo||oo||oo||ooo|o|o|oo|||||o|o|o|||oooooo|o||| ||o||||o|oo|||o||oo||ooo|ooo|oo|||oo|o|||o|||oo|oo|oo|o|||||oooo||ooooooo oo|oo|||||oo|||||o|oo|o||oo|||o|ooo||o|oo|||o||ooooooooo|ooooo|o|||o||o|| o|oo|o||o|oo|oo|oo|o|o|o|oo|o||||oo|oo||ooo|ooooo||||o|oo|oo|||o|||oo|||| |o||||o|||oo|o||o||oo||oooo|oo|o||oooo|oo|||||||oo|o|o|ooo|oooo||||ooo|oo ooooo|||oo||oo|o||o|ooooooo||||||o|o||o|o|ooo||oo||o||oooo||oo|oo|||o|||| |o|||oo||o||o|o|||o||oooo|oo|||o||oo|ooooo|o|||o|||oo|ooo|ooo|||oo||oo|oo ||ooo|||ooo|||o|ooooo||||oo|||||oo||ooo|o||o||ooo|oo||oo|oo|||o|o|o|oooo| |||oo|o||o||o|ooooooooo|o|o|||||oo|o||ooo|o||o|oo||||oo|o||o||o|ooo|||ooo oooo|||ooooo||o||oo|ooo|||||o|oo|||o||o||ooo|ooo||oo||oo||o||o|oo|o|oo||| oooooo||||oo|o||oo|||o|ooooo||ooo||||||oooo|||||oo||||ooo|||o|o|o|o||oooo o|o|o|oo|o|oooo|o|ooo||oo|oo||||||||ooo|o||o||oo||o|||ooo|o||oo||oo||oo|o oo||||oooooo|o||o|o|oooo||o|||oo|ooo|o|o|o|ooo||o|o|oo|o|||o|o|o|||o||o|| oo|oooo|oo|o|oo||||oo|||o||o|o||o||o|oooo|o||||o|o||o|ooooo||ooo||||||ooo oo||o|oo||||oo|||||||||ooo|oo|||oo||oooo||o|o|o||||ooooooooo|oo|||oo|oo|o o|o|||||o|o|||oo|oo|o|||o|o|||oo|oo||ooo|oo|oo||oooo||||o||||ooooooo||ooo o|||||oo|o|||oo|ooooo|ooooo||o||oo||ooo||||oo|oooo||||oo|oooo||oo|o|||||| |oo|oo|||||oooooo||||ooo|||||ooo|oo|o|||oo|o|o|||o||ooo||ooo|o|oo|||o|ooo ooooo|o|oo||o||||oo||oo|o|ooo||o|o|o|||ooo||||||o||oo|ooo||o|o||oo|o||ooo |oo|ooooo||o||o|o|oo|oo|||ooo||||o|oo|oo|o||||o|oo|||o||o|||||ooooo|o|ooo |o||ooooooo|||oo|ooo|ooo||||ooo||oo||ooo|||||||ooo|o|ooooo|||||o|o|o|||o| http://mevius.5ch.net/test/read.cgi/tech/1544931495/8
9: デフォルトの名無しさん [sage] 2018/12/16(日) 21:10:16 ID:3q5iKhWM こんなスレあったんだ Windowsのフォントって、どのフォントがどのコード体系とか字体を使っている。 などを纏めているところってある?? http://mevius.5ch.net/test/read.cgi/tech/1544931495/9
10: デフォルトの名無しさん [sage] 2018/12/16(日) 23:11:32 ID:/e3hQGaS ちょっと考えれば分かるようなことをなぜ聞くんだろう。 http://mevius.5ch.net/test/read.cgi/tech/1544931495/10
11: デフォルトの名無しさん [sage] 2018/12/17(月) 20:40:27 ID:kiEfSjeK ちょっと考えれば解るなんてすごい人だな。 ちょっと書いてみ http://mevius.5ch.net/test/read.cgi/tech/1544931495/11
12: デフォルトの名無しさん [] 2018/12/17(月) 21:18:18 ID:lO+98ZHR あげ http://mevius.5ch.net/test/read.cgi/tech/1544931495/12
13: デフォルトの名無しさん [] 2018/12/18(火) 03:08:10 ID:81OlOyOQ nkf - Network Kanji Filter Fork https://ja.osdn.net/projects/nkf/scm/git/nkf/ v2.1.5 2018-12-15 18:19:02 http://mevius.5ch.net/test/read.cgi/tech/1544931495/13
14: デフォルトの名無しさん [] 2018/12/18(火) 11:22:36 ID:/M0/bFGF >やはり頭悪いのはunicodeと符号化を混同してる ここは同意 >2つ以上のオクテットを使う符号単位で >BOM入れないヤツは池沼だからな これは嘘 http://mevius.5ch.net/test/read.cgi/tech/1544931495/14
15: デフォルトの名無しさん [] 2018/12/19(水) 00:20:13 ID:jOXn0Ht9 低学歴知恵遅れには エンディアンの概念がないのが よおく分かったわ http://mevius.5ch.net/test/read.cgi/tech/1544931495/15
16: デフォルトの名無しさん [sage] 2018/12/19(水) 00:28:37 ID:t+yG2AJO CPUの内部形式とデータには何の関係もない 現にネットワークデータはCPUとは無関係の並びになってる http://mevius.5ch.net/test/read.cgi/tech/1544931495/16
17: デフォルトの名無しさん [sage] 2018/12/19(水) 00:54:40 ID:s0UhV0Jg やっぱあれ書いたの半角さんだったんだw http://mevius.5ch.net/test/read.cgi/tech/1544931495/17
18: デフォルトの名無しさん [] 2018/12/19(水) 00:57:03 ID:jOXn0Ht9 うわあ。。。 マジでいってんの こういうマジもんの低学歴がこの板で はば利かせてるのがよく分かるわ マジで頭悪いことを ハジもなくなんの躊躇もなくいうからな プログラムで いちいエンディアン変換してんのすら しらないらしいわ 当然Unicodeのエンコード方法にも ビッグエディアンとリトルエンディアンがある http://mevius.5ch.net/test/read.cgi/tech/1544931495/18
19: デフォルトの名無しさん [] 2018/12/19(水) 00:58:18 ID:jOXn0Ht9 もうね低学歴すぎてヤバイって ちなみネットワークでデータを交換するときは 暗黙で基本はビッグエンディアンになってる 常識だからなコレ http://mevius.5ch.net/test/read.cgi/tech/1544931495/19
20: デフォルトの名無しさん [] 2018/12/19(水) 01:00:17 ID:jOXn0Ht9 低学歴知恵遅れって なんでものすごい頭悪いことを 自信満々にいうわけ? http://mevius.5ch.net/test/read.cgi/tech/1544931495/20
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 982 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.287s*