[過去ログ] 文字コード総合スレ Part12 (1002レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
1: 2018/12/16(日)12:38 ID:VlX3xGEw(1/7) AAS
Windows NTは初代からUnicodeがネイティブの文字コードです。cp932ではありません。
プログラマーなら一度は煩わされたことのある文字コードについてのスレ。
UTF-8、Shift_JIS、JIS、EUC、Unicode、UCS、サロゲートペア、コードポイント、文字コード判定、
合成文字、ソート、TRON、外字コード、その他について語り合いましょう。
各言語での文字列の扱いについての質問もOKです。
基本マッターリ、ささ、茶でもどうぞ。

■過去スレ
文字コード総合スレ part1 2chスレ:tech
文字コード総合スレ part2 2chスレ:tech
文字コード総合スレ part3 2chスレ:tech
省10
2
(1): 2018/12/16(日)12:40 ID:VlX3xGEw(2/7) AAS
■参考サイト
Unicode Home Page
http://www.unicode.org/
Java Character Encodings
http://www.ingrid.org/java/i18n/encoding/
euc.JP: tech docs, BeOS tools
http://euc.jp/
IANA: Character Sets
http://www.iana.org/assignments/character-sets
Legacy Encoding Project
省4
3: 2018/12/16(日)12:45 ID:VlX3xGEw(3/7) AAS
■これまでに行われた議論
・Windows 10のコマンドプロンプトでUTF-8を使用する場合chcp 65001で切替可能。日本語入力等も可
・Shift JIS や EUC-JP や Big5 や GB なんかをUnicode に変換してしまうと、ラウンドトリップは保証されるか
・単一情報をソースの文字コード(or 言語)情報なしに元に戻したい (統計的に文字の出現確率なんかを調べる)
・0x5cをUnicodeにするときにバックスラッシュに置き換えるか円マークに置き換えるかで、逆変換時に結果が変わるの問題
・丸付き数字は機種依存文字か?。Unicodeでは機種依存文字ではない。
・Safari文字コード変換のバグは
・Microsoft文字コード変換のバグは
・U+31F0..U+31FF(アイヌ語表記用小書きカタカナ)が入ってない件
・文字化けに強いishフォーマットでエロ画像を交換する場合、ssより、s7のほうが化けにくい
省12
4: 2018/12/16(日)12:46 ID:VlX3xGEw(4/7) AAS
・中国語の簡体字では、へんやつくりが簡略化されるなら、その文字も自動的に簡略化して表記する国家規格が有る
・中国語の「噁心」簡化政策によると「恶(U+6076)」に統一。口偏+恶(U+6076)は普通に使われているがUnicodeにはない
・日本人のニーズが満たせないのも確かなので原規格分離(中国では「曾→曽」は簡体字と繁体字の違いとはみなされていないとか)
・UNICODEを扱うプログラムはサロゲートをぶったぎられた入力が渡されてくる場合にも備えろって→YES
・UnicodeとUTF-8の違いは?
・日本のCJK Ext.D Submissionに{魚針}が含まれてる件
 U+9C75(魚箴)は強烈。いくら何でも違いすぎる。(魚針)
 ひょっとしたら後で実は別字だったとか日本では異体字だが中国では別字とかになるかも知れんぞ。
 中国ではってレベルじゃねーぞ。
・Unicodeは言語情報を直接扱わない。 多言語の混在表現は(unicodeでは)できないか
省2
5: 2018/12/16(日)12:46 ID:VlX3xGEw(5/7) AAS
もうひとつの過去スレ:
文字コード統一スレ 1文字目
2chスレ:tech

隔離スレ:
UnicodeとUTF-8の違いは?
2chスレ:tech
UnicodeとUTF-8の違いは? その2
2chスレ:tech
UnicodeとUTF-8の違いは? その2
2chスレ:tech
省2
6: 2018/12/16(日)12:48 ID:VlX3xGEw(6/7) AAS
■ライブラリ
ICU - International Components for Unicode
http://site.icu-project.org/home
mlang
http://msdn.microsoft.com/ja-jp/library/aa767865(en-us).aspx
iconv
http://www.gnu.org/software/libiconv/
ICU
http://www.icu-project.org/
NKF32.DLL (非推奨)
省1
7: 2018/12/16(日)12:49 ID:VlX3xGEw(7/7) AAS
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
省16
8: 2018/12/16(日)17:19 ID:0LUE4AGb(1) AAS
oo|o|o|||o|o|o|o|||ooo|oo|o|ooooo||o||o|oooo|||o||||o|oo|o|||o|o|o|o|o|oo
ooo||o|o|||||||o|o||oo|ooo||ooo|o||oooo|oo|o||oo|||ooo||||oo||ooooo||oo||
oo||ooo|o||o||ooooo|oo|oo|o|o|||o|||||o|o|oo||oo|ooo||o||||o|o||o||o|oooo
ooo|||||o|oo|||ooo|o|oo|||||ooooooooooo|||ooo|||o||||oo|oo|||ooo|o||oo|||
ooooo|ooo||o|oo|||oooo|oo|||||ooooo||o|||oo|||o|o|o|o||||o|||||oo|oo|oo|o
||o|oo||oooooo||o|oo||o|||ooo||oo||oo||ooo|o|o|oo|||||o|o|o|||oooooo|o|||
||o||||o|oo|||o||oo||ooo|ooo|oo|||oo|o|||o|||oo|oo|oo|o|||||oooo||ooooooo
oo|oo|||||oo|||||o|oo|o||oo|||o|ooo||o|oo|||o||ooooooooo|ooooo|o|||o||o||
o|oo|o||o|oo|oo|oo|o|o|o|oo|o||||oo|oo||ooo|ooooo||||o|oo|oo|||o|||oo||||
|o||||o|||oo|o||o||oo||oooo|oo|o||oooo|oo|||||||oo|o|o|ooo|oooo||||ooo|oo
省16
9: 2018/12/16(日)21:10 ID:3q5iKhWM(1) AAS
こんなスレあったんだ
Windowsのフォントって、どのフォントがどのコード体系とか字体を使っている。
などを纏めているところってある??
10: 2018/12/16(日)23:11 ID:/e3hQGaS(1) AAS
ちょっと考えれば分かるようなことをなぜ聞くんだろう。
11: 2018/12/17(月)20:40 ID:kiEfSjeK(1) AAS
ちょっと考えれば解るなんてすごい人だな。
ちょっと書いてみ
12: 2018/12/17(月)21:18 ID:lO+98ZHR(1) AAS
あげ
13: 2018/12/18(火)03:08 ID:81OlOyOQ(1) AAS
nkf - Network Kanji Filter Fork
https://ja.osdn.net/projects/nkf/scm/git/nkf/
v2.1.5
2018-12-15 18:19:02
14: 2018/12/18(火)11:22 ID:/M0/bFGF(1) AAS
>やはり頭悪いのはunicodeと符号化を混同してる

ここは同意

>2つ以上のオクテットを使う符号単位で
>BOM入れないヤツは池沼だからな

これは嘘
15: 2018/12/19(水)00:20 ID:jOXn0Ht9(1/5) AAS
低学歴知恵遅れには
エンディアンの概念がないのが
よおく分かったわ
16: 2018/12/19(水)00:28 ID:t+yG2AJO(1) AAS
CPUの内部形式とデータには何の関係もない
現にネットワークデータはCPUとは無関係の並びになってる
17: 2018/12/19(水)00:54 ID:s0UhV0Jg(1) AAS
やっぱあれ書いたの半角さんだったんだw
18: 2018/12/19(水)00:57 ID:jOXn0Ht9(2/5) AAS
うわあ。。。
マジでいってんの

こういうマジもんの低学歴がこの板で
はば利かせてるのがよく分かるわ

マジで頭悪いことを
ハジもなくなんの躊躇もなくいうからな

プログラムで
いちいエンディアン変換してんのすら
しらないらしいわ

当然Unicodeのエンコード方法にも
省1
19: 2018/12/19(水)00:58 ID:jOXn0Ht9(3/5) AAS
もうね低学歴すぎてヤバイって
ちなみネットワークでデータを交換するときは
暗黙で基本はビッグエンディアンになってる

常識だからなコレ
20: 2018/12/19(水)01:00 ID:jOXn0Ht9(4/5) AAS
低学歴知恵遅れって
なんでものすごい頭悪いことを
自信満々にいうわけ?
1-
あと 982 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.269s*