文字コード総合スレ part15

文字コード総合スレ part15 (467ﾚｽ)
上下前次1-新
抽出解除必死ﾁｪｯｶｰ(本家) (べ) 自ID ﾚｽ栞あぼーん

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

329(1): デフォルトの名無しさん [sage] 2025/07/25(金) 07:07:21.05 ID:yWMF+wv2(1/4) AAS
>>328

328(3): デフォルトの名無しさん [sage] 2025/07/25(金) 01:59:47.04 ID:UKTPcfYB(1) AAS
PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する

それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう

ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと？
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい

そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね？だし

unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん

331(1): デフォルトの名無しさん [sage] 2025/07/25(金) 11:08:12.46 ID:yWMF+wv2(2/4) AAS
>>330

330(1): デフォルトの名無しさん [sage] 2025/07/25(金) 09:21:41.11 ID:5+UAzUxo(1/2) AAS
>>329
元々の unicode は実践主義、御都合主義ともいう。
過去に別の文字として同時に実装された記録があれば別の文字として登録。

つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか

しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か
どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか
(と思ったらもうあった、0x9f4a〜8文字のようだ)

仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、
unicodeもこの軌道に乗ってるな
(もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか？)

333: デフォルトの名無しさん [sage] 2025/07/25(金) 18:28:38.05 ID:yWMF+wv2(3/4) AAS
>>332

332(1): デフォルトの名無しさん [sage] 2025/07/25(金) 14:05:16.33 ID:TViBdD0W(1) AAS
>>331
戸籍／汎用電子情報交換環境／文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる

正式名称は知らんが、俺が言ってるのはそれだな
ググったら総務省が音頭取ってやってるのか？色々出てきたが、
少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな？

にしても検索どうするんだこれ？だし、
最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが

334(1): デフォルトの名無しさん [sage] 2025/07/25(金) 19:02:45.52 ID:yWMF+wv2(4/4) AAS
と思ったが、IVSは直後に枝番付加する方式か
まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる

ちなみにこれ、実際のグリフを算出するにはどうするのだ？
異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか？
というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、
もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、
必ず元字＋枝番のセットで使うのが仕様か？(この方がいいが)

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.025s