[過去ログ] 文字コード総合スレ part13 (1002レス)
上下前次1-新
抽出解除 レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
11: デフォルトの名無しさん [sage] 2020/07/04(土) 22:24:59.27 ID:pCOzWn8m(1) AAS
>>1010(1): デフォルトの名無しさん [sage] 2020/07/04(土) 21:57:15.92 ID:0DTN05zS(1) AAS
「うわー、ID:uIgOlo/V 君て博識なんだね。私も試してみるね。
「コマンドプロンプトを開いて…と
「それで “漢字”と入力したファイル k を UTF16 LE で保存と…
「よし準備完了!
--
C:\>od -x k
0000000 feff 6f22 5b57 000d 000a
0000012
C:\>type k
漢字
C:\>copy k con
・"oW[
1 個のファイルをコピーしました。
C:\>cat k
・"oW[
C:\>type k | od -t x1
0000000 8a bf 8e 9a 0d 0a
0000006
C:\>
--
「あれれ? ID:uIgOlo/V 君、なんかおかしいよ? どうして?
「“「コマンドプロンプトはcp932(SJIS)である」はウソ”なんだよね?
いつの間にkの中身が書き換わってるの?
何やだ怖い君のPCおかしいよ
16: デフォルトの名無しさん [sage] 2020/07/05(日) 21:05:40.27 ID:M+BkbwUs(2/3) AAS
>>22(5): デフォルトの名無しさん [sage] 2020/07/03(金) 23:13:42.20 ID:uIgOlo/V(1) AAS
「コマンドプロンプトはcp932(SJIS)である」はウソ
Windows NTの標準の文字コードであるUnicode(UTF16-LE)の
テキストファイルを作り、chcp 932のままtypeコマンドで表示してみましょう
文字化けせずに表示されますね?
(フォントがない場合は表示されないがそれ以外は問題ない)
これは明らかにコマンドプロンプトがUnicodeで動作している証拠です。
コマンドプロンプトがUnicode動いているという証明はこれで十分だと思いますが、
もし仮に反論があるならその根拠を言ってくれれば説明を追加します。
(根拠なしにcp932にきまってるだろ!みたいなものは一言で潰しますのでよろしく)
の結論は一行目。つまりお前が合ってると言った部分だろう?
>「コマンドプロンプトはcp932(SJIS)である」はウソ
23: デフォルトの名無しさん [sage] 2020/07/09(木) 08:50:19.27 ID:TKLTGhB7(1) AAS
>>2222(1): デフォルトの名無しさん [] 2020/07/09(木) 06:07:26.69 ID:uQo6bqoB(1) AAS
「絵文字 知られざる舞台裏」
私たちがスマホなどで日常的に使っている絵文字。
この絵文字は、“世界共通言語”として管理されており、絵文字の新規採用をめぐり、様々な団体がロビー活動を行っている。
“共通言語”として世界的に規格が統一されている絵文字。
アメリカの大手IT企業などからなる団体が、新たな絵文字の採用を決定しており、認定を求めて様々な団体がロビー活動を行っている。
番組では、白ワインの絵文字採用を求める醸造家などのロビー活動を取材。
絵文字は、どのようなプロセスで決定されてゆくのか、その知られざる世界を描く。
原題:Backlight: Beyond Emoji (オランダ 2019年)
外部リンク:www.nhk.jp
>“世界共通言語”
>アメリカの大手IT企業などからなる団体
NHK的な物言い、いいねw
でも、「言語」 って?
これ、カリフォルニアのワイナリーの話かな?
そこのMLに登録するとサブジェクトに絵文字の入ったメールを送ってくるとかなんとかw
30: デフォルトの名無しさん [] 2020/07/12(日) 10:45:57.27 ID:NK7E+AG5(1/2) AAS
赤の▼が投稿禁止用語だとは知らなかったわ
217(3): デフォルトの名無しさん [sage] 2021/10/02(土) 03:12:57.27 ID:AUpOKXgX(1) AAS
>書き方が複数あるのは、どちらも使われていて同じものと認識されているから、字形が違うで済む
それがね、「人の名前を正確に書かないなんて失礼でしょ!」って、包摂されてるレベルの異体字を正確に表現することを求める人、結構いるんです…。
同じものだと認識してる人の範囲、実は案外狭くて、板挟みになってるところにしわ寄せがいってるだけかもしれません…。
468: デフォルトの名無しさん [sage] 2022/04/06(水) 15:56:14.27 ID:N8xSXOwY(1) AAS
文字コードスレでやる話じゃない
その程度の判断すら出来ないピーマンに
ドキュメントを読むなんて発想があったら
そっちの方がビックリしてしまう
667: デフォルトの名無しさん [sage] 2022/12/02(金) 09:35:18.27 ID:q48B2P2f(1/2) AAS
今でも7ビットの制約とかあるんだっけ
いずれにせよMIMEのエンコードをするから別にISO-2022-JPじゃなくてもいいと
668: デフォルトの名無しさん [sage] 2022/12/02(金) 11:55:24.27 ID:u/9H+2Gz(1/2) AAS
実は7bit制約もインターネットの場合は存在しない。
昔ながらの個別メール網とメール交換する際の互換性のために7bitが必要だっただけだが、そういうのは滅びたかゲートウェイで7−8変換するようになったので。
そういう意味で生UTF8で十分。
746(3): デフォルトの名無しさん [sage] 2023/02/21(火) 20:04:41.27 ID:NFhPk2T2(1) AAS
>>743743(3): デフォルトの名無しさん [] 2023/02/21(火) 19:33:57.30 ID:VTx8hARX(1/2) AAS
>>740
UTF-8は文字によって1バイトで済むなら1バイトで表現する。
これはアルファベットを使用している欧米人には都合がいいが、漢字を使っている日本人、中国人などでは、その漢字は何バイトなのか常に意識しなくてはならなくなる。
近い将来、4バイトで統一した方が楽という話になる。
特に中国が世界の中心になると、中華人民共和国が推奨しているキャラクタセット GB2312は2バイトで一文字をあらわすキャラクタセット。
日本語のように1~2バイトで表現するから、UTF-8のように1バイト文字、2バイト文字、3バイト文字、4バイト文字、5バイト文字と何バイト使うのかわからないキャラクタセットは嫌う。
中国語EUCとUTF-8は相性が悪い。
寝ぼけるな。
欧米でもアクセント付きの文字やちゃんとしたクォートとか使えばバイト数増える。
さらに合成アクセント、合成文字、異体字セレクタ、絵文字合成、国旗とかもろもろあって固定長にはならない。UTF32使っても可変長。
881(1): デフォルトの名無しさん [sage] 2023/02/27(月) 08:02:36.27 ID:71jbPN3e(1) AAS
>>874通りすがりだが、お前は論外
ググってトップに「Java/Javascriptは内部コードでUTF-16が使われています」と書かれていたのを読んだのだろうが、BOMつけるか論争をしている人達割り込むツッコミ方じゃねぇw
他人を煽る前に自身の読解力と理解力を見直して出直してこいw
882: デフォルトの名無しさん [sage] 2023/02/27(月) 10:24:39.27 ID:Y3EgytEI(2/7) AAS
外部コードは自動認識うんぬんより ASCII との互換性が重要なのだ
Linux だの Mac だのの Unix 系は ASCII との互換性が必須なので BOM 無し UTF-8 以外に選択肢がないし
RFC とかネットの標準もそれに引きずられて るし
Windows 外部コードの unicode 化はこれから本番だけど、今まで CP932, CP1252 みたいにASCII互換は大前提で来たので互換維持した方がトータルのコストは低い
結局ASCIIと互換性のないBOM付きのUTF-8だの、UTF-16だのが外部コードとして主流になる世界は来ないのだよ
943: デフォルトの名無しさん [sage] 2023/03/01(水) 20:40:41.27 ID:UJmHFiTt(1) AAS
>>932932(1): デフォルトの名無しさん [] 2023/03/01(水) 10:07:23.21 ID:68s28u+f(2/5) AAS
>>927
>プロセスがバイトオーダーマークを含むUTF-16やUTF-32のデータをUTF-8に変換する場合がある。
>(訳注 つまり UTF-8 に BOM が含まれることがある)
訳注を善意的に解釈すると
間抜けな変換ツールによる変換時にそのまま先頭のBOMが残ることはあるかも知れないが
新たなプレーンテキストにはBOMは入れないでくれって読めるな
解釈する余地はない
許可されてるって書いてあるんだから
外部リンク[pdf]:www.unicode.org
ここの40ページにBOMが許可されてるって書いてある
Table 2-4. The Seven Unicode Encoding Schemes
Encoding Scheme: UTF-8
Endian Order: N/A
BOM Allowed?: yes
949: デフォルトの名無しさん [sage] 2023/03/02(木) 01:39:10.27 ID:SYo8L+Nt(2/6) AAS
>>948つけろ派は押されてトーンダウンした。
勝手につける分には一人も反対していない。
人に推奨して良いかどうかが今の境界線
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 1.333s*