[過去ログ] 文字コード総合スレ Part11 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
8: デフォルトの名無しさん [] 2018/01/22(月) 23:12:46.87 ID:UK/uqEp5(8/10) AAS
■単語一覧
・UTF-16は16ビット単位にエンコードするけど、サロゲートペアがある
 表現できる文字空間はUTF-8と同じく20ビットとちょっと
・丸付き数字は機種依存文字か?MSIME2007ではCP932に収録されてない文字は「環境依存文字」って表示。
 MacJapaneseではフォントによっては表示されないし、フォントによっては表示される。
今のMac(内部Unicodeアプリ)は、フォント依存ではなくアプリ依存。
似非ISO-2022-JPや似非Shift_JISのドキュメント中の丸付き数字は、
素直にAppleのAPIを使ってるアプリならゲタ(U+FFFD)になる。
・Mail.appではISO-2022-JPに収まらずCP932に収まるメールは、含まれる字種によって
 charset=CP932で送信される場合とISO-2022-JP(もどき)で送信される場合がある
・MSでのウニコードとSJIS変換のバグ。
 U+007E TILDE <-> Shift_JIS 0x7E OVERLINE
 U+301C WAVE DASH -> Shift_JIS NA 【MSの問題】
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS 0x8160 WAVE DASH 【MSの問題】
・SafariでのウニコードとSJIS変換のバグ。
 U+007E TILDE -> Shift_JIS 0x8160 WAVE DASH 【Safariの問題】
 U+301C WAVE DASH <-> Shift_JIS 0x8160 WAVE DASH
 U+FF5E FULLWIDTH TILDE <-> Shift_JIS NA
・winzipの規格ではファイル名のコードページ指定もしくは記録情報が存在しない。
 解決策:取り合えず、MSWin+JPではShift-jisでファイル自体には保存されている。
 MACOSX=Unicode,Unix=UTF/EUC/S-JISどれでもありえる。文字に関係なくLocalLangで
 再変換しているので、それをしなければよい。
・charlenでの文字列長の判定はプラットフォームにより返り値が違う(機種依存文字等)。マニュアル嫁。
・JISのエスケープシーケンスが正しく認識されない本文とか。
 '0x1b, 0x24, 0x42' という3バイトを先頭に、'0x1b, 0x28, 0x42' を末尾に追加汁。
 あるいは外部リンク[php]:masaka.dw.land.toとか。
34: デフォルトの名無しさん [sage] 2018/02/03(土) 23:36:52.87 ID:7YWK+QWP(1) AAS
上書きできたっけ?
先に入ってる方を消せって言われた気がする
84: デフォルトの名無しさん [sage] 2018/03/01(木) 10:30:25.87 ID:K+j/zXtz(1) AAS
>>80
80(1): デフォルトの名無しさん [] 2018/02/28(水) 17:38:48.54 ID:F8/eMdWm(1) AAS
>>75
BOMなしのUTF-8が選べればベスト
無理ならbigendian
あんがとー

> Windows付属のメモ帳では標準でBOMが追加されてしまうらしい

うにコード 詰んどるやんけ…
120: デフォルトの名無しさん [sage] 2018/03/23(金) 00:09:04.87 ID:VqVxJ9uP(1) AAS
何原理主義だろう
135: デフォルトの名無しさん [] 2018/03/25(日) 08:37:33.87 ID:U5SlEUJl(1) AAS
ウェブ屋さんはMac率200%くらいじゃないだろかね。
260: デフォルトの名無しさん [] 2018/05/08(火) 16:23:34.87 ID:75TKeVia(1/2) AAS
どうせスレチなら現代でも太陰暦に変換するツールが必要
334: デフォルトの名無しさん [sage] 2018/05/30(水) 20:55:57.87 ID:+kRmOuNK(3/3) AAS
>>332
332(1): デフォルトの名無しさん [sage] 2018/05/30(水) 20:46:20.24 ID:/bFYrAtR(1) AAS
だから「ラウンドトリップ用」って話だろ?
限定せずに「ラウンドトリップ用」って書いたらCJK互換文字全体だろ。
「JIS X 0213:2000のためのラウンドトリップ用」はその一部でしかない。
349
(1): デフォルトの名無しさん [sage] 2018/06/01(金) 14:43:43.87 ID:s/+fnCQL(1) AAS
>>346
346(2): デフォルトの名無しさん [] 2018/06/01(金) 11:58:37.96 AAS
>>342
一般の開発者やユーザーは「CJK互換文字の利用は推奨しない」で覚えておいた方が漏れがなくて安心だな
お前のような拡大解釈したいやつは「ユニコードの利用は推奨しない」で覚えておけば漏れがなくて完璧だな。
376
(1): デフォルトの名無しさん [] 2018/06/10(日) 15:33:08.87 ID:mkooDB8i(1) AAS
>>373
373(2): デフォルトの名無しさん [sage] 2018/06/09(土) 19:05:32.10 ID:roRwdie6(1) AAS
curl '外部リンク:www.unicode.org | wc -l
とやると
32292
と返ってきたんだけど、つまり今現在Unicodeには32292文字が収録されていると思っていいのかな。
中身を見ればわかるけど漢字領域 (4e00 から 9efe) とかは
飛ばしてあるから全然違う。
382: デフォルトの名無しさん [sage] 2018/06/13(水) 00:55:38.87 ID:ixGTG5kv(1) AAS
5ちゃんでemojiのAAは文字数制限が厳しいからどうしても小さくなりがちだな
441: デフォルトの名無しさん [sage] 2018/06/28(木) 12:37:34.87 ID:iSaREpik(2/2) AAS
>>439
439(2): デフォルトの名無しさん [] 2018/06/28(木) 09:47:22.60 ID:/fqEtI/z(1) AAS
>>438
キャリッジリターンは行頭に戻るだぞ
キャリッジリターンだと行頭の文字しかアンダーラインを打てないのでは?

バックスペースで1文字分戻ってアンダーラインを打ったり
文字を二度打ちして太字にしたりしてたと聞いたぞ
なるほど。ありがとう。
546: デフォルトの名無しさん [sage] 2018/07/25(水) 18:24:58.87 ID:oBls1I2Q(2/2) AAS
JIS X 0212 補助漢字の残りはいつになったら……(´・ω・`)
555: デフォルトの名無しさん [sage] 2018/07/27(金) 03:15:50.87 ID:Wnb3i599(1) AAS
AJ16が出て結構経つとはいえこの間JISの改訂があったわけでもないんで
意外とAJ18も数十〜数百文字程度の小規模アップデートで終わるかも
661: デフォルトの名無しさん [sage] 2018/08/13(月) 15:15:08.87 ID:fDt52YY1(1) AAS
>>657
657(2): デフォルトの名無しさん [sage] 2018/08/13(月) 14:33:07.24 ID:1RU0E1KE(1) AAS
この際1byteを32bitか64bitにしたらどうよ
1byteが8bitになったのはアルファベットや数字が固定長で表せて
2^nbitで処理しやすかったからなんだろうけど
1byteが32bitか64bitになればエンディアンの問題もなくなって分かりやすくなる

32bitでも、64bitでも、好きな長さを「word」と呼べばいい。
これで、エンディアンの問題もなくなって分かりやすくなるんだよな。
745: デフォルトの名無しさん [sage] 2018/08/18(土) 14:33:57.87 ID:KC80I9ck(2/4) AAS
>>744
744(1): デフォルトの名無しさん [sage] 2018/08/18(土) 14:18:12.19 ID:5gN61dbI(2/3) AAS
>>743
そういう答えの場合は、知ってる実装を一つだけでもいいので答えてくれればいいよ
コンパイラとか libc を設計する奴以外は内部実装関係ないやろ。内部実装に依存したら移植性が無くなる。
知りたかったらlibcのソース嫁。最近の linux の glibc ならUCS4に統一。昔のunixだと EUCコードそのまま16ビットでフラグ付きで入れてた。
773
(1): デフォルトの名無しさん [] 2018/09/12(水) 16:39:35.87 ID:1j3hWxX7(1) AAS
>>771
771(1): デフォルトの名無しさん [sage] 2018/09/12(水) 15:59:00.59 ID:DAmcAY4y(1/2) AAS
Unicodeって,なんで初めに多バイト文字のことを考えなかったんだろう。
そもそも多バイト文字を統一するために設立したようなもんなんだから,
2^16では済まないことくらい予測できた筈なのにね
アルファベット二十数文字しか使ってない奴らが
六万文字もあれば世界中全部の文字カバーできるよな
って雑に考えたから
977: デフォルトの名無しさん [sage] 2018/12/15(土) 15:27:12.87 ID:EyhC0X8P(1/2) AAS
>>975
975(2): デフォルトの名無しさん [sage] 2018/12/15(土) 15:14:00.77 ID:+6LwXb2C(1) AAS
マジかよ圧倒的シェアのWindowsがBOM付きだからという理由で自分は全部BOM月にしてたのに梯子外されたのかよ
わざとらしい。Windowsのネイティブ文字コードはUTF16なんだから普通はUTF16を使うだろ
メモ帳で保存するときに、Unicodeを選んだらUTF16になる
UnicodeといえばUTF16のこと
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.055s