[過去ログ] 文字コード総合スレ Part12 (1002レス)
上下前次1-新
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
876(1): 2021/04/21(水)22:23 ID:U7I+mJcY(4/6) AAS
>>875
例えばどんなのがありますか?
877: 2021/04/21(水)22:29 ID:nyleF7PB(2/2) AAS
お堅くwin32API叩いて書かれたバイナリの互換性は驚異的だよな
MSが気まぐれに出しては忘れるフレームワーク叩いてたら知らんが
バイナリ配布文化を育ててしまった原因でもあるが、ここまで大事にしてきたのにエンコード対応なんかで折れてもらっては残念
win10(64bit)でoffice97が元気に動くのは誇っていい
878(1): 2021/04/21(水)23:04 ID:tWbCEelV(3/5) AAS
>>876
ロケール指定する処理が省かれたC言語アプリ全般
879: 2021/04/21(水)23:10 ID:U7I+mJcY(5/6) AAS
>>878
だからそれはどれかって聞いてる
880(1): 2021/04/21(水)23:11 ID:U7I+mJcY(6/6) AAS
大部分と言う割に、事例を一個も思いつかないなら矛盾してる
881: 2021/04/21(水)23:20 ID:tWbCEelV(4/5) AAS
Cで書かれたレガシープログラムほぼ全部なので挙げるまでもないんだけど、有名どころだとPerlだね
システムコード以外の文字を含むファイル名をperlに引数で渡せない
882: 2021/04/21(水)23:26 ID:tWbCEelV(5/5) AAS
Cで書かれたmain()関数にはシステムコードページで引数が渡されるのだけど、その時点で文字化けしてるので復元不能。
883: 2021/04/22(木)09:25 ID:lWdVtKH+(1) AAS
>>880
お前、もう少し黙っとけ。無知過ぎる。
アホを晒し続けてるの実は同一人物だろ。
884: 2021/04/22(木)11:05 ID:24mwOh0d(1) AAS
このスレ読んでるとハゲそう
885: 2021/04/22(木)11:48 ID:cA5EjL24(1) AAS
>>867
勿論普及してたからはあるだろうけど、そもそも変えるとかまた作り直すとかいう発想が無かったんじゃないかな。
ASCII制定→ISO 646制定→各国で変えられるのは10文字とか足りる訳無いだろ!→
ASCIIを拡張して8ビットフルに使おう→ISO 8859制定
とかそんな流れでしょ、増やして積んでけばいいと。当時のことは資料でしか知らないけどたぶん。
886: 2021/04/22(木)20:15 ID:H07mHdZr(1) AAS
メールで添付ファイルを送ろうとしたらbase64でエンコードされたせいで容量オーバーした
ネットワークのトラフィックを減らすためにもメールでバイナリデータをエンコード無しで送れるのが標準化すればいいのに
887: 2021/04/22(木)22:46 ID:XWZJYEFR(1) AAS
いち早く国際化はずのjavaもシステムのコードページでしか引数を受け取れない制約がある
888: 2021/04/23(金)00:48 ID:/P9+MOWj(1) AAS
ほんまに?
Unicode対応していながら_wmain()とかGetCommandLineW()使ってないとは信じがたいが
889: 2021/04/23(金)01:33 ID:dmQwGyWy(1/2) AAS
googleで検索したら以下ページすぐ見つかったけど、探すことさえしないタイプの人?
外部リンク[html]:blogs.osdn.jp
890: 2021/04/23(金)03:25 ID:z5iGgWRG(1/4) AAS
Windows 専用ソフトでなくて、複数のOSに対応したソフトは当然そうなる。
特に Unix 系からの移植ならロケールをコードページに対応させるのは当たり前。
Windows独自の特殊APIで実装とか頭の悪いローカル変更は極力しない。
891: 2021/04/23(金)03:27 ID:Apsl8RTN(1/4) AAS
というか単にC言語がASCII互換の文字コードしか
対応できないんだよな
そこは言語側の問題だと思う
892: 2021/04/23(金)03:29 ID:Apsl8RTN(2/4) AAS
例えばJavaとかはUnicode前提で設計されてるから
当然Javaで作った複数のOS対応のソフトは
WindowsでもUnicodeが使える
これは殆どの言語に当てはまると思う
C#、JavaScript、Ruby、Python、などなど
893(2): 2021/04/23(金)03:30 ID:Apsl8RTN(3/4) AAS
そういやC言語はマルチバイト対応の機能は標準化されてないんだっけ?
流石にC++は標準化されてるよな?
894: 2021/04/23(金)04:04 ID:dmQwGyWy(2/2) AAS
<locale>ヘッダがマルチバイト対応を実現してくれる
問題は誰もlocaleの機能を使ってないことだ
895: 2021/04/23(金)07:26 ID:Apsl8RTN(4/4) AAS
おや?<locale>ヘッダとはなんのためにあるのでしょう?
使わなくても多言語対応できるのだったのでは?(苦笑)
896(1): 2021/04/23(金)09:16 ID:z5iGgWRG(2/4) AAS
CがASCII互換じゃないと駄目ってどこの異世界。そんなもんコンパイラの実装次第。
規格では他の文字コードも考慮されてる。
実際 EBCDIC ですら動くやつあるのに。
897: 2021/04/23(金)09:17 ID:z5iGgWRG(3/4) AAS
>>893
POSIX
898(1): 2021/04/23(金)13:53 ID:z7/roYpD(1) AAS
>>896
CはASCII互換である必要はないが、
C言語文字列互換、つまり「文字列終端が\0」互換でなければならない
EBCDICはC言語文字列互換だが、UTF-16とUTF-32は互換性がない
899(1): 2021/04/23(金)22:37 ID:z5iGgWRG(4/4) AAS
>>898
意味わからない。wchar はC言語とは認めない主義の人かな?
900: 2021/04/23(金)23:40 ID:vWq/Hknp(1/2) AAS
別にnull終端文字列を使うのがスタンダードかつ標準ライブラリもそう期待しているというだけであって、好きに実装したらいいよ
ぶっちゃけ舐めないと文字列長決められないので性能がスケーラブルでないし、null文字衝突の問題もあるし筋が良くない
マトモなCで書かれたテキスト関連アプリ、特にエディタでヌル終端文字列使ってるのなんて皆無だろ
普通はrope、もう少しカジュアルならパスカルストリング
901: 2021/04/23(金)23:42 ID:hyXGjiN1(1) AAS
wcharω
902(1): 2021/04/23(金)23:45 ID:vWq/Hknp(2/2) AAS
そもそも今時ゴミstdlib引いてC書く時点でアッて感じだし(組み込み等以外)
903: 2021/04/24(土)01:15 ID:lum8vFBO(1/5) AAS
>>899
え?C言語の仕様にwchar_tを使うmainが無いんだからら
C言語の問題でしょうが
904: 2021/04/24(土)01:31 ID:+S3huMNR(1) AAS
wmain() ってC言語じゃないの?
905(1): 2021/04/24(土)11:01 ID:h7gEVqDL(1/2) AAS
>>902
Linux/Unix のプログラムはほとんど stdlib 使ってるけど、何か問題でも?
exit() とかの基本関数は stdlib にあるんだよ。
906: 2021/04/24(土)11:04 ID:fOHAtvcd(1) AAS
OS l17n
907(1): 2021/04/24(土)13:26 ID:A8uXloOI(1) AAS
C言語を捨てろと言ってるんだろ
他の言語に移ったところで文字コードから逃れることはできないがな
908: 2021/04/24(土)15:17 ID:iyr+Gwkk(1) AAS
>>905
アプリケーションの話
909: 2021/04/24(土)15:48 ID:lum8vFBO(2/5) AAS
>>907
他の言語はWindowsのUnicodeにちゃんと対応してる
910: 2021/04/24(土)15:57 ID:lkpB631F(1) AAS
>>893
C++はヤバすぎる
utf-8用の1B型を最近標準化したけど、まともに実装されてないし設計もユルユル
WGの中の人がサードのライブラリ引いてね発言するくらいヤバい
911: 2021/04/24(土)16:15 ID:lum8vFBO(3/5) AAS
結局の所Unicode対応ができてないのはC/C++の言語自体と
無能なC/C++プログラマが根本的な原因なんだよな
無能なくせにクソ言語を使うなと
912(1): 2021/04/24(土)17:52 ID:h7gEVqDL(2/2) AAS
OSなどの実行環境まで含めて全部をセルフ記述できる言語だけがC言語をけなして良い。
C言語の代わりになる高級アセンブラとか存在しないのが実情。
913: 2021/04/24(土)19:43 ID:lum8vFBO(4/5) AAS
Windowsを全部セフル記述できる人だけが、Windowsをけなしていい
914: 2021/04/24(土)19:44 ID:lum8vFBO(5/5) AAS
訂正
Windowsを全部セルフ記述できる人だけが、Windowsをけなしていい
915: 2021/04/25(日)01:01 ID:mV4e9R8D(1/2) AAS
>>912
C言語(とその派生)が無くなると世の中のほぼ全ての言語が一緒に死ぬからなあ。
ハンドアセンブルのマシン語は残るとして他に生き残りそうなやつって何があるだろうか?
汎用機のCOBOLとかなら大丈夫か?
C言語で使えない文字コードとかあったらゴミだな。
916: 2021/04/25(日)09:44 ID:5WfSbj4L(1) AAS
Lisp MachineではFortranもCもlispで書かれていたのじゃよ、もうlisp専用ハードが無いけど…
今のハードがほぼC用に設計されているというだけ
それでもソフト資産が莫大だからCエミュレータは不滅だろうが
917: 2021/04/25(日)12:49 ID:mV4e9R8D(2/2) AAS
lispマシンは滅びたのじゃよ。
javaマシンは産まれもしなかった。
別に今のCPUがCに合わせて設計されてるわけではない。
Cのオプティマイザーが頑張って今のCPUにあわせてるだけ。
lisp で lisp コンパイラと CPU オプティマイザ書けば理論的には同じことができるはずだけど誰もしようとしないだけ。
これ以上はスレチだな。
918: 2021/04/25(日)13:07 ID:FGclKzDI(1/2) AAS
lispマシンのタグ付き思想はBOMに近いから関係ない事もないと思う
違うのは自動でオブジェクト=型+ワードから値だけ取り出す機構が(普及して)無いところだな
動的言語がこのまま持て囃され続ければ、ハードウェアGCの可能なlispマシン風ハードが出るかもしれん、何十年後になるか知らんが
919: 2021/04/25(日)13:18 ID:FGclKzDI(2/2) AAS
アドレス付け単位としてのバイトが8bitでは効率良く型(あるいはエンコ)情報付けるのは厳しいな
文字単位で付けると少なくとも16bitになってしまう
やっぱり36bit時代の話だね
920: 2021/04/25(日)13:47 ID:y4+cdB21(1) AAS
Jazelle...
921: 2021/04/26(月)14:21 ID:REE9nEfp(1) AAS
lispすげーの人は夢を語りすぎ
鏡観ろ
922: 2021/04/29(木)14:26 ID:Wx+1i7qD(1) AAS
やっぱりヤンキーはASCIIのことしか考えてないのか
Copying non-ASCII characters from Windows to WSLg broken
外部リンク:github.com
923: 2021/04/29(木)22:05 ID:aEwK4kMw(1) AAS
WSLgはまだプレビュー版やろ
924: 2021/04/30(金)19:55 ID:m/tHuDzV(1) AAS
ヨーロッパの人もびっくりといったところでしょうか
925(3): 2021/05/10(月)21:21 ID:dIUUxNIr(1/2) AAS
CP932やUTF-8で保存されたテキストファイルをバイナリエディタで見る時、
0x0Dと0x0Aは常にCR・LFに対応するという理解であっていますか
例えば"東"は以下のように保存されますが、0x0Dや0x0Aが含まれる字が存在しない事を確かめたいです。
UTF-8: e6 9d b1
CP932: 93 8c
尚、ファイルは破損しておらず、デコードできない文字は含まれていません
926(1): 2021/05/10(月)21:32 ID:P0pDB+XT(1/2) AAS
>>925
WikipediaのCP932とUTF-8の記事見てみ
927(1): 2021/05/10(月)21:51 ID:dIUUxNIr(2/2) AAS
>>926
ありがとうございます
難しくてわかりませんでした
928(1): 2021/05/10(月)22:22 ID:ViCp850r(1) AAS
プログラミングのお題スレ Part18
2chスレ:tech
UTF-8 では、先頭ニブル(4ビット)が0なのは、1バイト文字だけだから、
0x0D・0x0A は、1バイト文字だけしかない
929(1): 2021/05/10(月)22:33 ID:+j6JaQYv(1) AAS
MSのCP932や、UTF8はASCIIの上位互換。
つまり 0x0A とかは同じ解釈でいける。
UTF16とかUTF32とかは上位互換じゃないので駄目。
930(1): 2021/05/10(月)23:26 ID:P0pDB+XT(2/2) AAS
>>927
どのあたりが難しかった? 煽りじゃなくて
931: 2021/05/11(火)00:05 ID:0t6JOZiV(1/2) AAS
ありがとうございます
>>928
UTF-8では、0x0Dと0x0Aは常にCR・LFと対応するのですね、助かりました
CP932も同様でしょうか
>>929
アスキー文字(0x00-0x7F)のみが書かれる時、CP932もUTF-8も同じバイト列であることは知っていましたが
0x0Dや0x0Aを含む文字が存在しない事を知らなかったので質問しました
例えば「帰」はCP932だと8b 41で、0x41が含まれていますが「A」を表してはいないわけで
同様の例が0x0D 0x0Aに当てはまるのか知りたかったのです
932(1): 2021/05/11(火)00:06 ID:0t6JOZiV(2/2) AAS
長すぎたので分割しました
>>930
うわ、どっちも文字がいっぱい……
UTF-8のページ
「エンコード体系」の表が関係しそうだなあ、でもよくわからんなあ。何故2進で書いたし……
今
あ、16進表記の列もあったのか。どれどれ…、あ、0x80以上なのか。じゃあ0D 0Aを含む文字はないんだなあ
CP932のページ
「構造」の表が関係しそうだなあ、でもこれはutf-8のサブセットのことを言っているのかな、それは知っているけどなあ
うーん、でも他に関連しそうな記載は見つけられないなあ
今
あ、CP932って必ず2バイトに収まるのか?そしたら第2バイトの0x00-0x3Fが未使用だから、0x0Dと0x0Aは常にCR・LFと対応すると言って良さそうだなあ
933(2): 2021/05/11(火)01:30 ID:c3IDGufy(1/4) AAS
CP932に依存するコードを車輪の再発明するのはやめたほうがいい
UTF16を介して処理するのが堅実だよ
934: 2021/05/11(火)02:38 ID:1enRFFJU(1) AAS
CP932だと絵文字が入ったファイル名とか扱えないからね
WindowsがUnicodeなんだからそれに従ったほうが良い
935: 2021/05/11(火)06:46 ID:InyAS07X(1) AAS
>>932
わかりませんでしたって書いてたけどだいたい読めてるじゃん
「自信ないけどこう読み解きました」
「それでおk」
で済む(・∀・)
936(1): 2021/05/11(火)09:39 ID:Gl0wmygZ(1) AAS
>>933
今更UTF16はないよ。中途半端なゴミ。
UTF32にするべき。じゃなければUTF8で処理する方かまし。
937(1): 2021/05/11(火)09:55 ID:c3IDGufy(2/4) AAS
>>936
プログラミングやったことない人は回答しなくていいから
938: 2021/05/11(火)10:46 ID:FWZS8iTB(1/2) AAS
>>925
読み込むとき CR を無視して LF だけ読んだとき CRLF が来たものとして処理
書き込むとき CR を無視して LF だけ書き込む
これで大抵の場合うまくいく
939: 2021/05/11(火)10:47 ID:FWZS8iTB(2/2) AAS
>>925
ああすまんω
バイナリの話か
忘れてくれωω
940(1): 2021/05/11(火)15:53 ID:R6EacYeM(1) AAS
>>937
技術的な反論ができないので、プログラムしたことがないとうレッテルを貼ってごまかそうとする。
醜いな。
941(1): 2021/05/11(火)15:59 ID:fJhAJw72(1/6) AAS
なんでUTF-8で全世界統一しないんですか?
2000年問題みたいにやっちゃやーいいのに
942(1): 2021/05/11(火)16:02 ID:c3IDGufy(3/4) AAS
>>940
WindowsのCライブラリはUTF-32には対応してないんだよ
943(1): 2021/05/11(火)17:51 ID:/14fii8B(1) AAS
2000年問題?
944: 2021/05/11(火)18:03 ID:jUIDYAvI(1) AAS
>プログラムしたことがない
話や知識がかみあってない人は描いてる内容や雰囲気で判るけどな
プログラムしたことがあっても特定の分野に疎いとか
色々勘違いして覚えてるとか知識が偏ってるとかな
945(1): 2021/05/11(火)18:12 ID:c3IDGufy(4/4) AAS
ICUはUTF-16がメインだよ。ソースとか見たことないの?
946: 2021/05/11(火)19:09 ID:fJhAJw72(2/6) AAS
>>943
2000年問題の時は全世界で一斉に改修しただろ
文字コードも同様に全世界で一斉にUTF-8にすればいい
SJISとかEUCとか使ってソフトはDeprecatedに指定して
もう二年したら使えなくなるぞ、(#゚Д゚) 凸ゴルァ!!、と伝えればすべての問題が解決
947(2): 2021/05/11(火)19:17 ID:vh9Kat/q(1/2) AAS
おまえ明日から使用言語は英語な
明日まで翻訳終えられなかった日本語の文書は破棄するように
948(1): 2021/05/11(火)19:31 ID:fJhAJw72(3/6) AAS
>>947
OK, no problem.
However, you all have to speak in English, too.
Is that OK with you?
949(1): 2021/05/11(火)19:51 ID:6D07FFeW(1/2) AAS
じゃあ二年後の正月から日本全体で電気は50Hzな
例外は認めない
950: 2021/05/11(火)20:07 ID:fJhAJw72(4/6) AAS
>>947
OK, it doesn't matter to me.
I currently live on the 50Hz-side.
Seriously, what the fuck is the matter to change all charsets to UTF-8?
At least, we have to start writing all characters in UTF-8.
You guys are just procrastinating the problem to the later generation.
951: 2021/05/11(火)20:37 ID:GFoNMADL(1) AAS
哎呀〜
952(1): 2021/05/11(火)20:47 ID:vh9Kat/q(2/2) AAS
>>948
No.
I resolutely refuse to your suggestions.
953: ◆QZaw55cn4c 2021/05/11(火)20:49 ID:HFm5gSrp(1/8) AAS
>>933
え?
UTF32 こそ正義なのではないですか?
UTF16 は、あくまでも特定用途のために UTF32 から変換して渋々使うものかと‥‥
954(1): ◆QZaw55cn4c 2021/05/11(火)20:50 ID:HFm5gSrp(2/8) AAS
>>941
外に出す文字コードは UTF-8
内側では基本 UTF-32 を使うべきかと、私は考えています
955: ◆QZaw55cn4c 2021/05/11(火)20:52 ID:HFm5gSrp(3/8) AAS
>>942
へんな言い方ですね
「Windows の C ライブラリ」ではなくて、Windows のシステムコール=win32api というべきなのでは?
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
956: ◆QZaw55cn4c 2021/05/11(火)20:55 ID:HFm5gSrp(4/8) AAS
>>945
UTF-16 は Windows 等の特定用途なのでは?
むしろ正義は UTF-32 にあるでしょう
Shift-JIS や EUC は時代遅れだ、という意見には同意せざるを得ないのですが、だからといって、UTF-16 を提案するというのは、かえって悪手というか、頭が変なんじゃないかと私は考えます
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
そんなんじゃ駄目だ
957: ◆QZaw55cn4c 2021/05/11(火)21:02 ID:HFm5gSrp(5/8) AAS
>>949
50Hz は当時のドイツの会社「アルゲマイネ・エレクトリツィテート・ゲゼルシャフト」社から、
60Hz は当時の米国の会社「ゼネラル・エレクトリック」社から来ています
もし英語を第一言語に主張するのならば、50Hz ではなくて 60Hz が本流でしょう‥‥
実際、今で合衆国・カナダ・メキシコは 60Hz の国ですし
958: 2021/05/11(火)21:41 ID:fJhAJw72(5/6) AAS
>>952
No, no, no, no, ... YOU suggested first.
959(3): 2021/05/11(火)21:58 ID:fJhAJw72(6/6) AAS
>>954
いいですよ、UTF-32は一度も使ったことないですけど、
全世界で文字コードが統一されるなら協力しますよ。
自分はマなんですけど(って、ここにいる全員そうか)、
毎回文字コードの問題が浮上するたびに統一しろよと思ってきました。
UTF-8が出た時は「これでやっと統一される!」と思ってたら、ちっとも変わってない。
どこの馬鹿が舵切ってないんですか?
こんなもん、トップダウンでやらんと意味が無い。
蛇足だが、50Hz/60Hzも本気で統一すればいい。
地デジでアナログテレビを駆逐したんだからやれないことはない。
車の左側/右側通行も世界共通で左側通行にすべき。
960(1): 2021/05/11(火)22:01 ID:62zfmCQO(1) AAS
Ubuntu は、UTF-32 だけど、英語圏では後半の2バイトが無駄。
メモリ使用量が、UTF-16 の2倍
だからWindows などの昔のOS は、UTF-16・サロゲートペアを使っている
961(1): ◆QZaw55cn4c 2021/05/11(火)22:28 ID:HFm5gSrp(6/8) AAS
>>959
>50Hz/60Hzも本気で統一すればいい。
無理です……
変電・配電設備はどれも 50Hz/60Hz それぞれに専用で、もう一方の周波数には対応できません
仮に 60 Hz をやめて 50Hz に統一するとすると、西日本の電気設備は全部更新しないといけません、部品が全然足りなくて、多分西日本は3年くらい停電、電気なしの生活になりますね……
962(1): ◆QZaw55cn4c 2021/05/11(火)22:29 ID:HFm5gSrp(7/8) AAS
>>960
いまどき 32GiB RAM が常識な世の中で、後半の 2 バイトが無駄とかみみちいですね、そんなんじゃ駄目だ……
963(2): 2021/05/11(火)22:35 ID:6D07FFeW(2/2) AAS
じゃあ明日から「円」は廃止「ドル」しか使えない
「メートル」は廃止してインチ、フィート、ヤード、マイルで
「摂氏」は廃止して華氏
「リットル」は廃止してガロン
これでアメリカと互換だぞ
便利だろ?
964: ◆QZaw55cn4c 2021/05/11(火)22:37 ID:HFm5gSrp(8/8) AAS
>>963
国民皆保険すらない後進国にあわせるのですか?
965(1): 2021/05/12(水)00:04 ID:XehBH/T/(1) AAS
>>962
組込み用途では相変わらず厳しい制限があるだろ
966(3): 2021/05/12(水)00:56 ID:w4TAZAbA(1) AAS
>>959
何をいってんの? Unicodeの目的は「これからは」単一の文字コードで
世界中の文字を表現すること
過去の資産を無くすためじゃない
それからUTF-8はな、せっかくUTF-16に統一しようとしていたのに
Unicode団体でな無い所が新たに追加した文字コードだぞ
UTF-8がでたときは「また文字コード増やしたのかよ」って思うはずなんだが
967(1): 2021/05/12(水)01:47 ID:VbRrwICc(1) AAS
あーもー!結局次が決まらんならS-JIS使い続けようぜ!
968: 2021/05/12(水)02:24 ID:S+EDWDjz(1/5) AAS
>>965
組み込み用途では制限が厳しいのでUTF16を使いますwww
お前、組み込みでどれだけ文字処理してんの?
いや、UTF8やUTF32じゃ駄目でUTF16じゃんないと制限に引っかる最近の実例があったの?
あったら具体例教えてほしい。
969(1): 2021/05/12(水)02:26 ID:Wqknze8k(1/2) AAS
Cコンパイラがwchar_t型をUTF16とするかUTF32とするか次第じゃね
970(1): 2021/05/12(水)02:35 ID:S+EDWDjz(2/5) AAS
>>966
だってUTF16がインターネットでの使用をまともに考慮して無かったので仕方ない。
unicode以前からインターネットは既に存在していて基本ASCIIベースだったので、それの上位互換がnetで普及するのは当然の流れ。
文字数が16ビットじゃ足りないことと、インターネットの普及を予測できなかったUnicodeコンソーシアムの不見識がUTF16の原因。
971: 2021/05/12(水)02:49 ID:Wqknze8k(2/2) AAS
UTF8を使うにしても、SJIS -> UTF16 or UTF32 -> UTF8 と変換するからやってることは同じなんだよ
972: 2021/05/12(水)03:26 ID:rVJ0Zld2(1/2) AAS
>>970
なんで文字コードがインターネットの使用を考慮しないといけないかもわからないし
インターネットでUTF-16が使えるのに、考慮してないというする理由もわからない
もしかしてネットサーフィン(笑)をインターネットという爺かお前
973(1): 2021/05/12(水)03:27 ID:rVJ0Zld2(2/2) AAS
ASCIIは7ビットなんだからUTF-8だって非対応なんだがw
974(1): 2021/05/12(水)09:38 ID:HCx7UYF5(1) AAS
>>959
言いたいことは判るが
君の発言はアーカイブとか文書の問題とすりかわってないか?
βのテープなんてまだあちこちにごろごろしてるだろ?
MO/MDなんかもまだあるだろ?
そのうちHDDもなくなってSSDばかりになるだろうがHDDはなくならないだろ?
新しいものはそっちで作っても古い方は面倒だから移動なんてしないだろ?
975(2): 2021/05/12(水)11:26 ID:rw/WEf9V(1) AAS
馬鹿メリカ式だと今日がこんなのになってしまう
5.12.2021
こんなの混ぜたら5月12日なのか12月5日なのか判別できずに混乱が生じる
混乱の対象となるのは各月12日までで月≠日のパターン(12*12-12=132通り)
年のうち36%もの日で混乱が生じている
馬鹿メリカ式さえ排除すれば大体うまくいくのだ
976: 2021/05/12(水)11:31 ID:S+EDWDjz(3/5) AAS
>>973
プロトコルを拡張する時に上位互換の拡張が求められる、っていう常識すら知らないの?
まともに規格作ったり、実装したことないのかな。
一度動きだしたものは変更コストができるだけ小さい拡張が普及するんだよ。
977: ◆QZaw55cn4c 2021/05/12(水)20:16 ID:HQn5nLJO(1/3) AAS
>>966
>せっかくUTF-16に統一しようとしていたのに
後世の模範となる康熙字典ですら 4万7035 字が収録されているというのに、UTF-16 の 6万5536 文字のキャパシティの面では圧倒的に足りないのでは?
世の中に存在する文字、かつて存在した古代文字を全部残らず収録する、という姿勢にしては、UTF-16 は「しょぼい」としかいいようのないキャパですね…
CJK 漢字統合なんて、東洋人からみればひたすら「醜い」の一言
「UTF-16 に統一」という基本設計、あるいは基本思想の時点で既に「根本的に間違っている」と私は結論づけます
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
そんなんじゃ駄目だ…
978(1): ◆QZaw55cn4c 2021/05/12(水)20:17 ID:HQn5nLJO(2/3) AAS
>>969
wchar_t は死産でしょう‥‥
979: ◆QZaw55cn4c 2021/05/12(水)20:18 ID:HQn5nLJO(3/3) AAS
>>975
×馬鹿メリカ式
◎ダメリカ
980(1): 2021/05/12(水)20:22 ID:zdSe0i8P(1/2) AAS
UTF-16 の最大文字数は 6万5536を遥かに超えるんだが
基礎知識がないやつとは、話にならんかな
981: 2021/05/12(水)20:39 ID:S+EDWDjz(4/5) AAS
昔に 65536 で十分ってアホなこと言い出したやつがいたのが、今の UTF-16 っていうヘンテコ文字コードができた原因だろ。
結果は、ごらんの有様。
982(2): 2021/05/12(水)20:41 ID:zdSe0i8P(2/2) AAS
UTF-8ができたのはUTF-16の後な
最初はUTF-32と同じ文字数を表現できるようにしたが
最終的にUTF-16と同じ文字数に変更した
UTF-8とUTF-16が扱える文字数は同じ
983: 2021/05/12(水)21:12 ID:4TbGo10q(1/2) AAS
えっなにこの流れ
UTF16で扱える文字数とUTF32で扱える文字数が違うとか言い張ってる人がいるように見えるんだけど
そんなことがあるの??
984: 2021/05/12(水)21:17 ID:Bs1VBcWP(1) AAS
外部リンク:ja.wikipedia.org
1984年、ISOの文字コード規格委員会 (ISO/TC 97 - SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える
文字コード規格 (ISO 10646) を作成することを決定し、専門のワークグループ (WG2) を設置した。
当初、この文字コード規格は16ビットを想定し、その中に日本や中国など各国の漢字コード表をそのまま入れることを想定していた。
しかし中国はこの方式では自国で現在策定中の漢字コードが全て入らなくなるとしてこの方針に反対し、
1989年、各国の漢字コードを統合した漢字集合HCCのアイデアを提案した。
1990年、完成したISO 10646の初版ドラフト (DIS 10646) では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。
しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、
今後の漢字コードの方針を決めるため、ワークグループはCJK-JRGと呼ばれるグループを別途設置し、そこで引き続き検討することにした。
985: 2021/05/12(水)21:37 ID:4TbGo10q(2/2) AAS
ごめん誰か馬鹿な俺のために
(1) UTF16で表現できるがUTF32で表現できない文字
(2) UTF32で表現できるがUTF16で表現できない文字
を具体的に例示してもらえないだろうか
サロゲートペアなんてもう20年以上前には登場してたよね?
最大65536文字とか言ってる人は頭が平成1桁時代のまま取り残されてるの?
それとも、IVSや絵文字が絡むとUTF32で表現できない文字が出てきたりするんだっけ・・・?(こっちは自分が不勉強ゆえ自信なし)
986: 2021/05/12(水)22:41 ID:Be2Ur7pl(1/2) AAS
>>961
変電・配電設備だって永遠に運転できる訳じゃない。
老朽化したら修理や建て直しぐらいするから、そのタイミングで変えていけ。
一斉にやるんじゃなくて、局所的に分けて10年〜15年ぐらいかけてやればいい。
その間は隣の市から電気もらうのもOK。
>>963
「円」じゃなくて基準を「金」に戻すかな。
単位に関しては世界標準無視かよ?
>>966
正直、UTF-8でもUTF-16でもUTF-32でもまったく新しい文字コードでもいいよ、統一できるなら。
何ちんたらちんたらやってんだよ?
>>967
よし、今すぐ回線切ってタヒね
987: 2021/05/12(水)22:42 ID:Be2Ur7pl(2/2) AAS
>>974
βだろうがMO/MDだろうが、必要となったときに変換すりゃいいだけだろ。
少なくともその「必要となったとき」に吸い上げて変換した上で別の媒体に保存すればいい。
新しい文書は当然古い文字コードでは一切書かせてはいけない。
SJISなんぞ使った日にゃ秘密警察が見つけ出して206個ある骨をすべて砕く刑に処す。
>>975
その指摘は正しい。
ただ、一番正しい日付の表示法はヨーロッパ式で、
次に正しいのはお前が指摘しているアメリカ式で、一番馬鹿なのが日本式。
>>982
正確に数字で話せ。
で、真面目な話になるが、その中で最長の文字数を扱える文字コードはどれだ?
その最長の文字数でこの世のありとあらゆる文字は表現できるのか?
また、その最長の文字数を扱える文字コードだとデータ処理は遅くなってしまうのか?
988(1): 2021/05/12(水)23:15 ID:UT6XyfGi(1) AAS
ISO8601よりヨーロッパ式を推すとはたまげたなあ
989(1): 2021/05/12(水)23:28 ID:LpmPGSmH(1) AAS
場末の掲示板の場末の板でイキってるんだから可愛いよね
990(1): 2021/05/12(水)23:30 ID:S+EDWDjz(5/5) AAS
>>982
>UTF-8ができたのはUTF-16の後
それ何のジョーク?
UTF−16(サロゲートペア)方式が公開されたのは UTF−8 方式の4年後なんだが。
991: 2021/05/13(木)00:55 ID:bi8pzl4S(1) AAS
>>978
C++のcwcharヘッダーからもわかるとおり、wchar_tは規格の一部
992: 2021/05/13(木)05:07 ID:nrtxeueq(1) AAS
>>990
外部リンク[txt]:www.cl.cam.ac.uk
> Looking around at some UTF-8 background, I see the same incorrect
> story being repeated over and over. The incorrect version is:
> 1. IBM designed UTF-8.
> 2. Plan 9 implemented it.
> That's not true. UTF-8 was designed, in front of my eyes, on a
> placemat in a New Jersey diner one night in September or so 1992.
>
> What happened was this. We had used the original UTF from ISO 10646
> to make Plan 9 support 16-bit characters, but we hated it.
要約 16bitのUTFを使っていたが嫌いだったからUTF-8を作った
993: 2021/05/13(木)09:13 ID:jPZ0z7Tj(1/2) AAS
で、どこに 16bit の "UTF" って書いてあるの?
勝手に UTF を補完すんな。その頃は UTF-16 はまだ存在してない。
994: 2021/05/13(木)11:09 ID:0pD51twu(1/2) AAS
>>988
ああ、ISO8601よりもヨーロッパ式の方が断然いい
なんだ、その理由も分からないのか?
995: 2021/05/13(木)11:13 ID:0pD51twu(2/2) AAS
>>989
場末の掲示板の場末の板で呟いているお前の方がよっぽど可愛いわ
せめて俺に直接レスしたらどうだ、この臆病者がw
996(1): 2021/05/13(木)13:46 ID:oT9LP7EK(1/2) AAS
成立順
UCS-2(かつてのUnicode)→UCS-4→UTF-8→UTF-16→UTF-32
ってことかな?訂正よろ
997(1): 2021/05/13(木)13:51 ID:pHijDXLB(1) AAS
>>980
そのせいで shift_jis と同じ失敗を繰り返した訳だ
998: 2021/05/13(木)14:28 ID:oT9LP7EK(2/2) AAS
>>997
同じ失敗って何?
shift-jisみたいに2文字目の判定に時間がかかったり読み違えたりする可能性はないと思うけど
999: 2021/05/13(木)14:49 ID:jPZ0z7Tj(2/2) AAS
>>996
その書き方だと UCS-4 == UTF-32 かな。
正確には UCS は符号化文字集合で UTF は符号化方式だけど。
1000: 2021/05/13(木)14:57 ID:aKG1Dap7(1) AAS
文字コード総合スレ part13
2chスレ:tech
1001(1): 1001 ID:Thread(1/2) AAS
このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 877日 22時間 9分 2秒
1002(1): 1002 ID:Thread(2/2) AAS
5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
外部リンク:premium.5ch.net
▼ 浪人ログインはこちら ▼
外部リンク[php]:login.5ch.net
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.181s*