文字コード総合スレ part15 (472レス)
1-

12: 2024/08/23(金)23:40 ID:cmdpMWs7(1) AAS
ターミネーターの姉はターミネーちゃん
13: 2024/08/24(土)01:25 ID:Ou5o/VfJ(1) AAS
終端抵抗
14: 2024/08/29(木)08:02 ID:xXLtcRNN(1) AAS
スレがターミネートしそうになってるやないかい!
15
(1): 2024/08/30(金)16:05 ID:+R5e+PNr(1) AAS
もう丸囲み数字はやめようよ。
日本人はなんで打ちにくい①、②、③を書くのかな?

手間しかかからない。
16: 2024/08/30(金)16:58 ID:G4y5i48u(1) AAS
>>15
かわりに何を書くの?
(1)って打って①に変換するんなら手間は一緒だと思うが
単に使ってる日本語入力環境の問題じゃね?
17
(1): 2024/08/30(金)17:56 ID:sr/ASeNj(1) AAS
数字の1を変換したら候補に①はあるから打ちにくいとは思わないな
18: 2024/08/31(土)10:12 ID:oPSFGvVw(1) AAS
毛頭はIIやIIIを好むけど同じ問題だな
19: 2024/08/31(土)19:43 ID:rCss6Stj(1) AAS
>>17
物理的なQueryキーの話じゃないぞ?
20
(1): 2024/09/01(日)05:48 ID:NvwjG4ve(1/2) AAS
「いち」の変換の候補は、一、位置、市、イチ、一部、壱、1
、1、?、? とかいろいろ、色とりどり、どれにしような
どれを使用しような。
てゆうーーか、「まるいち」って打ち込めば、丸一 だ
ま、「まるいち」って打ち込んでも、候補に?はでるが
単に、「いち」でも?が出てくる。てゆうか、
学習機能により、「いち」と打ち込むだけで
省2
21: 20 2024/09/01(日)05:51 ID:NvwjG4ve(2/2) AAS
?が?に化けちゃってる。
?は使用🈲を推奨を、推奨しようよ
22: 2024/09/01(日)10:03 ID:J4xaQJqz(1) AAS
25年以上前からUnicodeに含まれてる文字が化けるソフトを使用禁止にしろよ
23
(1): 2024/09/01(日)13:23 ID:iI4Ho9Ek(1) AAS
すまん5chで文字コードバグが起きてるんだがどういう事態になってんの?
24: 2024/09/01(日)14:36 ID:MnUgJTxK(1) AAS
bugってるのは君の頭だ
25: 2024/09/01(日)15:05 ID:MmIh9kGJ(1) AAS
>>23
直ったみたいだよ
ブラウザが変換・送信した数値文字参照をぶっ壊していた模様

サンプル
2chスレ:operatex
2chスレ:poverty
26: 2024/09/01(日)21:44 ID:4u39F89u(1) AAS
「いち」なんて打たなくても「1」だけで良いんだけどな
27
(1): 2024/09/02(月)20:00 ID:Mm7rASpk(1) AAS
UTF-8で見た目が同じものを二重に定義してしまった。

①~⑩までは昔からあるが、丸0と丸11以降を作り出してしまい、環境依存がさらに進んでいる。
28: 2024/09/02(月)20:47 ID:nqMgjBbq(1) AAS
IMEで変換する時に環境依存文字と出る文字は
CP932に無い文字ということ?
29
(1): 2024/09/03(火)16:12 ID:/Ve5otW6(1) AAS
>?〜?までは昔からあるが、丸0と丸11以降を作り出してしまい

しかも文字コードで丸内数字の大小比較出来ないんだぜ
30: 2024/09/04(水)06:51 ID:rihkE3nT(1) AAS
>>29
あれ、大小比較駄目なんだっけ?
31: 2024/09/05(木)00:09 ID:/oUqYYg3(1) AAS
大小比較は出来るけど連続性は全く出鱈目
しかもskipしてるし場所もバラバラ
32: 2024/09/06(金)03:04 ID:MqTwQYNn(1) AAS
>>27
>環境依存
この場合の「環境」って何?
33: 2024/09/07(土)00:11 ID:AfmpIPHK(1) AAS
今って皆Unicode環境じゃん
34: 2024/09/07(土)07:34 ID:G5zNb7Sx(1) AAS
がフォントに全ての文字含まれているわけではない
35: 2024/09/07(土)16:32 ID:8Mdqns08(1) AAS
今は標準のフォントで結構文字が入ってない?
そこにNotoあたりでも足せば... No Tofuというぐらいで
36
(1): 2024/09/08(日)01:58 ID:ZMDGTsRQ(1) AAS
市販の日本語フォントはProフォントでも Adobe-Japan1-7 にある文字どまりで2万3千文字程度
Noto も国ごと文字種ごとにファイル分割されているのでフォント切り替えないと全ての文字は表示できない(あと新しく追加された文字はない
いろいろ都合があって一つのフォントファイルに入れるのは最大でも6万字程度に抑えられてるのが実情
37
(1): 2024/09/08(日)02:50 ID:sAB3C2kg(1) AAS
なんでたまに中国の漢字が混ざるんかね
普通に使ってても混ざった事ないけど
38: 2024/09/08(日)05:25 ID:JPjEWE8J(1) AAS
CJK統合漢字という黒歴史
中国が文句言ったせいで
39: 2024/09/08(日)05:27 ID:vgBqrjWA(1) AAS
>>36
囲み文字の話だろこれ。無理に話広げんなっちゅーの
40: 2024/09/08(日)06:41 ID:VzCs41gF(1) AAS
文字列"c9" と"c10" 大小比較考察に、
数値9と10は、後者は、デカい有。さて
文字列のそれは、後者はデカく無アル?
てか、wind○wsは、ファイル名並替順は
ロジックは、意味は、ワカラン有る。
てか、豆腐文字□ぽぃのとか?はやめて、👻
に、豆腐文字ぽぃのは、統一してよ。
41: 2024/09/08(日)09:04 ID:2kAAelOS(1) AAS
文字コードに国境がないと想像してみよう  そんなに難しいことじゃない
争いや宗教がなくなり  全世界の人が平和に暮らせる
僕のことを夢想家だと言うかもしれないね
42: 2024/09/08(日)09:41 ID:KGpMdTK5(1) AAS
とんでとんでとんでとんで まわってまわってまわってまわる
43: 2024/09/08(日)10:09 ID:kvPGcLQN(1/2) AAS
日本語のソートはJISコード順じゃないと使い物にならないから内部でUnicodeからJISに変換しているという本末転倒感。
44: 2024/09/08(日)15:01 ID:AApwAY5I(1) AAS
何で今までと順番が違うんだとか言われても面倒だからね
文句言う連中は文字コード云々なんて知らないだろうし
45: 2024/09/08(日)16:55 ID:kvPGcLQN(2/2) AAS
今までと違うとか言う以前に、Unicodeのコードポイント順に整列しても意味不明だしね。
はっきり言って使い物にならない。
46
(1): 2024/09/08(日)19:11 ID:We5vf4ux(1) AAS
Unicodeで数字とアルファベットはフォント違いや上付きや下付きの文字があって
丸囲みでもデザインの違いが何種類もあるよね
こういう装飾的な物は文字コードの方でやるのか
HTMLなどの別の規格でやるのかどっちがいいんだろうね
文字コードの方でやるとプレーンテキストでも
文を見やすくできるけど文字の検索がしづらくなるんだよね
47: 2024/09/09(月)00:03 ID:7afCe/O3(1) AAS
>>46
最近は記号や絵文字とかまでを登録するようなってるので普通の文字じゃなかたりするのも多数ある
一見アラビア数字に見えても実際は飾り記号(dingbat)だったり数学記号(math symbol)だったりするのも多い
(フォント違いに見えるのは数学記号)
(同じ丸数字が複数あるように見えるのは修飾数字と飾り記号)
日本からだと全角数字とかフォントによって見かけだけ違うのもあるし
48: 2024/09/09(月)18:01 ID:XsanjNXu(1) AAS
>>37
日本語とはっきり設定していないから
49: 2024/09/09(月)18:21 ID:zvC05GrM(1) AAS
そういやアップル圏のアプリの実装って
濁点半濁点付きの平仮名片仮名はちゃんと表示できてるの?
折り返し処理だとかそういう所で
50: 2024/09/10(火)13:15 ID:KGjTz1X0(1) AAS
アップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリアップル圏のアプリ
51
(2): 2024/09/11(水)22:23 ID:3H08skAT(1) AAS
「Unicode 16.0」が公開 〜エジプト象形文字、レガシーコンピューティング記号を大量追加
5,185の新たな文字が追加。総計で154,998文字に
外部リンク[html]:forest.watch.impress.co.jp
52
(1): 2024/09/15(日)16:25 ID:FHCue4HF(1) AAS
Windows環境では〜記号が波ダッシュより全角チルダの方で普及しているからなのか
日本語フォントでもフォントによっては全角チルダは表示できても波ダッシュは表示できなくて
波ダッシュが指定したフォントにならないなんて事がある
53: 2024/09/15(日)17:44 ID:sX///73B(1) AAS
>>52
駄目フォントじゃのぉ

全角チルダをちゃんとチルダっぽくして波ダッシュと全角チルダを見た目で区別つくようにして欲しいって言ったら
全角チルダを波ダッシュ代わりにしてるWindowsユーザーからクレームが来るから面倒って言われた記憶
54
(1): 2024/09/16(月)01:40 ID:oxExUg4f(1/2) AAS
>>51
キャラクタベースの画面でインベーダーやパックマンができるようになるのか、胸熱
55: 2024/09/16(月)01:40 ID:oxExUg4f(2/2) AAS
しかしこのレガシーコンピューティングの部分の多角形とかって持ってるフォントある?
外部リンク:en.wikipedia.org

以前アプリを作ってた時にこの手のマークがあるなら是非使いたかったのだが
なさそうだったので自前でアイコンを作って表示した記憶が
56: 2024/09/16(月)12:43 ID:nhODMZRh(1) AAS
>>54
キャラジェネなんか?
57: 2024/09/16(月)15:24 ID:KZuryTv7(1) AAS
無能な働き者の集まり
58
(1): 2024/09/28(土)18:32 ID:1d8NABxz(1) AAS
>>51
Game spritesやIconsのリファレンス元が知りたい

Symbols for Legacy Computing Supplement
外部リンク[pdf]:www.unicode.org
59: 2024/09/30(月)10:07 ID:4t7Lwjtc(1) AAS
>>58
インベーダーっぽいのは「ALIEN CRAB」(異星カニ)、パックマンっぽいのは
「SNAKE」(ヘビ)等、固有名を避けあくまでも一般的なものとして逃げようとする
姿勢が見える
60: 2024/10/02(水)19:07 ID:C0WilfCa(1) AAS
ソリッドスネーク
61: 2024/10/05(土)09:08 ID:WFnL/JH1(1) AAS
ソリッドステートサバイバー + スネークマンショー
62: 2024/10/06(日)11:23 ID:BDyILJJL(1) AAS
なんつーか、PCGだなあ。
今更だけど。
63: 2024/10/06(日)17:40 ID:ALnpv1f2(1) AAS
横1列のドットパターンでコード割り当てて
合成も拡張して縦に並べられるとええかも
64: 2024/10/10(木)12:19 ID:bwO1aVtU(1) AAS
YMOと描いてイモと読む
65: 2024/10/13(日)00:25 ID:VNPRmq36(1) AAS
YMO欽トリオ... テクノな曲あったよな
66
(1): 2024/11/08(金)16:40 ID:M93pzeOZ(1) AAS
「U+〜」の表記法って正式な名称ないの?「Short Identifier」?
67: 2024/11/08(金)17:06 ID:TFeZf1kn(1) AAS
外部リンク:www.unicode.org
ないんでコードポイント表記とか
68
(1): 2024/11/08(金)18:20 ID:y8v+DuF6(1) AAS
>>66
そもそもUTF-8はその表記が正式な表記だから、表記の名称が存在しない。
69: 2024/11/09(土)19:37 ID:otPYdJdQ(1) AAS
天皇に名字がないようのなものか? って違うか
70
(2): 2024/11/09(土)20:43 ID:UMsfYHki(1) AAS
回答ありがとう。表記法や表現自体には特には名前ないんか。

正規表現のグループに名前を付けようとして
「(?<UnicodeCodePoint>(?<Prefix>U\+)(?<Hex>[0-9A-F]{4,6}))」
みたいにしたんだけど、
「U+HHHH」全体をコードポイントって呼んでいいのか、
「HHHH」部分だけがコードポイントと呼べるものなのか、
っていう疑問が湧いたんだよね。
省1
71: 2024/11/09(土)23:09 ID:OjNPz0/0(1) AAS
>>70
xxxx がコードポイント(code point)
U+xxxx がコードポイント表記 (code point notation)
とかで良いんじゃね
知らんけど
72: 2024/11/09(土)23:59 ID:aDTWwhb+(1) AAS
0xBEEFとBEEFは表現は違うけどどちらも16進表記で指してる値は同じ
10進表記の48879も同じ値を指す
Unicodeのコードポイントってのは値を指してる
だからなんやねんだけど
73
(3): 2024/11/10(日)02:50 ID:NcxfIIMm(1) AAS
>>70
「U+」の部分はUTF-8だという意味
74: 2024/11/10(日)03:16 ID:c/95e8WD(1/2) AAS
>>73
コードポイントとエンコードの区別が付かない男の人って
75: 2024/11/10(日)12:29 ID:AfmJKCJ3(1) AAS
>>68>>73
これはひどい
76: 2024/11/10(日)16:10 ID:DLtuPbgG(1/2) AAS
Cスレの通りにやって文字出力したら化けるんだけど、文字コード民的な正しい対処法は?
ちゃんとソースファイルがUTF-8なのは確認した

2chスレ:tech

#include <windows.h>

int main(void)
{
LPTSTR lptStr = TEXT("テスト😊");
省2
77: 2024/11/10(日)16:20 ID:DLtuPbgG(2/2) AAS
win32でのAやW、charとwchar_tの事は分かっていて
Linux他でのクロスコンパイルを考えてwchar_tは使わずにUTF-8 everywhereで通しつつ

puts("テスト😊");

が文字化けしない様にしたい
特定システムロケールは仮定せず
ターミナルではchcp 65001してある
場合です
78
(1): 2024/11/10(日)16:47 ID:ZReNrF9P(1) AAS
端末がUTF-8非対応なのはないとして
出力をファイルへリダイレクトするかダンプして
想定どおりのバイト列か確認してみては?
79
(1): 2024/11/10(日)16:48 ID:IKmeMWRS(1/2) AAS
C詳しくないんで、正しい対処法は知らんけど、どこの通りで手元で出力できた。

外部リンク:www.reddit.com
80
(1): 2024/11/10(日)16:48 ID:qC3Ky4ZL(1) AAS
分かってるならなんでLPTSTRから変換せずに使ってんの
81
(1): 2024/11/10(日)16:51 ID:IKmeMWRS(2/2) AAS
具体的な回答のリンクにできてなかったんで張り直し
これの前半のほうやね
外部リンク:www.reddit.com
82: 2024/11/10(日)17:29 ID:x8h1RQEe(1/4) AAS
>>78-81
ありがとうございます

putsで文字化けしていたのは、コマンドラインでソースutf-8指定したら文字化けは直りました
だけど、引数が受け取れないですね

#include <stdio.h>

int main(int argc, char **argv) {
puts("テスト0😊");
省14
83: 2024/11/10(日)17:34 ID:x8h1RQEe(2/4) AAS
デバッグで確認したところ、引数のテスト1😊 テスト2😊は受け取りの時点(argv[i])でアルファベット以外の各コードポイントが?になってます
84: 2024/11/10(日)17:39 ID:x8h1RQEe(3/4) AAS
WindowsTerminal
MSYSTEM=UCRT64のMSYS2 bashです

$ echo テスト1😊 テスト2😊
テスト1😊 テスト2😊
85: 2024/11/10(日)17:45 ID:x8h1RQEe(4/4) AAS
$ gcc ConsoleApplication1.c
$ ./a.exe
テスト0😊

$ ./a.exe テスト1😊 テスト2😊
Error: Command line contains characters that are not supported
in the active code page (1252).

UTF8 everywhereは厳しいですかね?
86: 2024/11/10(日)19:10 ID:c/95e8WD(2/2) AAS
WindowsでワイドキャラクタってのはUTF16LEのことだよ?
87
(1): 2024/11/10(日)20:20 ID:+vLaBA7E(1) AAS
UTF-8 everywhere行けました

$ cat utf8.rc
#include "winuser.h"
CREATEPROCESS_MANIFEST_RESOURCE_ID RT_MANIFEST "utf8.manifest"

$ cat utf8.manifest
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<assembly xmlns="urn:schemas-microsoft-com:asm.v1" manifestVersion="1.0" xmlns:asmv3="urn:schemas-microsoft-com:asm.v3">
省18
88: 2024/11/10(日)22:05 ID:ictCxOlF(1) AAS
>>87
下記の手続きを適用したってことなのかな?

Windows アプリで UTF-8 コード ページを使用する - Windows apps | Microsoft Learn
外部リンク:learn.microsoft.com
89: 2024/11/11(月)06:32 ID:bzvUbbzk(1) AAS
はい、検索して適当に拾ってきたのでxmlnsが微妙に違いますが同じことですね

MinGW64ツールチェーンではutf8.rcを経由してマニフェスト埋め込みしてますが
MSVCツールチェーンではその経路だとこうなります

$ rc utf8.rc
$ cl -utf-8 ConsoleApplication1.c utf8.res

ついでにPythonでもやってみました

$ cat ConsoleApplication1.py
省13
90
(1): 2024/11/11(月)11:04 ID:RXw/cl7Z(1) AAS
スレ汚しでしかない
91: 2024/11/11(月)13:27 ID:ZQtGCGPy(1) AAS
>>90
まあ、あの荒れそうな言語がユニコード引数でエラー出すからな
92
(1): 2024/11/15(金)23:15 ID:5CeogfbD(1) AAS
>>73
コードはユニコード
それをどうエンコーディングするかでUTF8やUTF16やUTF32などがある
ネットの標準がUTF8に統一されてなって
ファイルシステムでもUTF8に統一されつつあり
プログラム内部でもほとんどの用途はそのまま透過的にUTF8が有利に

固定長で扱うUTF32はムダすぎで
省2
1-
あと 380 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.023s