文字コード総合スレ part15 (467レス)
上下前次1-新
抽出解除 レス栞
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
41: デフォルトの名無しさん [sage] 2024/09/08(日)09:04:47.02 ID:2kAAelOS(1)
文字コードに国境がないと想像してみよう そんなに難しいことじゃない
争いや宗教がなくなり 全世界の人が平和に暮らせる
僕のことを夢想家だと言うかもしれないね
87(1): デフォルトの名無しさん [sage] 2024/11/10(日)20:20:44.02 ID:+vLaBA7E(1)
UTF-8 everywhere行けました
$ cat utf8.rc
#include "winuser.h"
CREATEPROCESS_MANIFEST_RESOURCE_ID RT_MANIFEST "utf8.manifest"
$ cat utf8.manifest
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<assembly xmlns="urn:schemas-microsoft-com:asm.v1" manifestVersion="1.0" xmlns:asmv3="urn:schemas-microsoft-com:asm.v3">
<asmv3:application>
<asmv3:windowsSettings xmlns="http://schemas.microsoft.com/SMI/2019/WindowsSettings">
<activeCodePage>UTF-8</activeCodePage>
</asmv3:windowsSettings>
</asmv3:application>
</assembly>
$ cl -utf-8 ConsoleApplication1.c
$ mt.exe -nologo -manifest "utf8.manifest" -outputresource:"ConsoleApplication1.exe;#1"
$ ./ConsoleApplication1.exe テスト1😊 テスト2😊
テスト0😊
テスト1😊
テスト2😊
$ windres --input utf8.rc --output utf8.res --output-format=coff
$ gcc ConsoleApplication1.c utf8.res
$ ./a.exe テスト1😊 テスト2😊
テスト0😊
テスト1😊
テスト2😊
106: デフォルトの名無しさん [sage] 2024/12/02(月)03:35:11.02 ID:okRPdXGy(1)
元のユニコードがクソだからなあ
結局どうにもならなくなって異体字セレクタとか出てくるし
138(1): デフォルトの名無しさん [sage] 2024/12/08(日)03:07:43.02 ID:h9KuPnHR(1)
>>136
じゃあまずはASCII以外でここに書き込むのやめろよ
177(5): デフォルトの名無しさん [sage] 01/18(土)03:52:04.02 ID:CaguG0TX(1/7)
RustがWindowsでファイル名を扱う時のWTF-8、あれ脆弱性の元な気がするんだよな…
WTF-8状態でサロゲートペアの前後を結合してしまうとUTF-8のとはまた別の冗長表現が導入されてしまう
200: デフォルトの名無しさん [sage] 01/20(月)22:15:46.02 ID:fw0guZsp(1/5)
>>198
普通に結合で新しくOsStringを作ってる例がありますやん
https://doc.rust-lang.org/std/ffi/struct.OsString.html#capacity-of-osstring
227: デフォルトの名無しさん [sage] 01/21(火)10:25:40.02 ID:uiolM7XA(1)
帰れ
259: デフォルトの名無しさん [sage] 01/26(日)11:31:33.02 ID:orn1Lem+(1)
>>257
このスレにいるなら文字コードとエンコーディングの区別を理解しよう
UTF-8はエンコーディング方法なので
そこでの正規化は冗長表現の排除やサロゲートペアの排除を指す
一方濁点半濁点の話は文字コードであるUnicodeの正規化の話であってUTF-8は一切関係がない
402(1): デフォルトの名無しさん [sage] 08/04(月)17:34:36.02 ID:B+SwrOCa(4/5)
>>400
だから 317が1対1じゃないって言ってるだろ
フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術
それが現在までそのまま引き継がれてる
Unicode で始まった話ではない
465: デフォルトの名無しさん [sage] 09/10(水)23:25:55.02 ID:qn6dqRwx(1)
https://asset.watch.impress.co.jp/img/wf/docs/2046/141/image3_l.png
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.034s