[過去ログ]
文字コード総合スレ Part11 (1002レス)
文字コード総合スレ Part11 http://mevius.5ch.net/test/read.cgi/tech/1516629503/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
レス栞
あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
697: デフォルトの名無しさん [sage] 2018/08/16(木) 02:36:38.02 ID:agaekNdO >>696 だからprintfで実装されているものをwprintfに修正するのが大変だって話 またwopenfなどワイド文字対応の関数が存在しない場合も存在する。 それに単純に置き換えてしまうと、今度はASCII環境で動かなくなってしまう なぜならwchar_tは16bit または 32bitという固定サイズなので 8bitのASCIIは扱えない(当然可変長バイトのUTF-8もwchar_tでは扱えない) だからwchart_tというものが作られたけど、Linux/Unixはそれを使用して ワイド文字列対応にするのは現実的に不可能と判断し、 printfで扱えるASCII互換のUTF-8を使うことにした http://mevius.5ch.net/test/read.cgi/tech/1516629503/697
699: デフォルトの名無しさん [sage] 2018/08/16(木) 03:50:25.48 ID:agaekNdO そりゃ16bit(つまりUTF-16)として書くか変換すりゃASCIIの範囲の文字列は 扱えるだろうさ、そうじゃなくて8bitのASCII文字が扱えないって話 charは1文字8bitとして定義されたものだが、UTF-8を扱う場合は可変長としても考えられる wchar_tは16bit (または 環境によっては32bit)であるがUTF-16を扱う場合は16bit単位の可変長、 つまりサロゲートペアを扱える。しかしwchar_tは所詮16bit(または32bit)単位なので8bitは扱えない そのためUTF-8のファイルを読み込むときには、wchar_tに変換して読み込まなければいけない。 例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-8に変換するとかしてだ。 このようにASCII互換のデータを扱うためには単純にchar型をwchar_t型に置換しただけでは だめで変換処理が必要になる。それに対してUTF-8であれば、char型を可変長char型と みなすことでそのまま扱うことができる。文字列の長さをカウントするときとか 1文字単位で処理しなければいけないところだけ、UTF-8を扱えるライブラリを使えば良い http://mevius.5ch.net/test/read.cgi/tech/1516629503/699
700: デフォルトの名無しさん [sage] 2018/08/16(木) 06:01:32.95 ID:agaekNdO 訂正 そのためUTF-8のファイルを読み込むときには、wchar_tに変換しながら読み込まなければいけない。 例えば8bitのASCIIコードであれば残りの8bitを\x00で埋めた16bitのUTF-16に変換するとかしてだ。 http://mevius.5ch.net/test/read.cgi/tech/1516629503/700
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.028s