文字コード総合スレ part15

文字コード総合スレ part15 (462ﾚｽ)
上下前次 1-新

336(3): デフォルトの名無しさん [sage] 2025/07/26(土) 08:13:11.69 ID:PF0bui/v(1) AAS
>>335

335(1): デフォルトの名無しさん [sage] 2025/07/25(金) 19:10:28.15 ID:5+UAzUxo(2/2) AAS
>>334
IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる（こともある）

うむ、意図が分からん
「斉」は独立コ
ードも与え、IVDにも登録、
「葛」は独立コー
ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな
実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる
無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、
仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな
（大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる)

> ソースが異なれば完全に同じ字形でも異なる IVS が与えられる（こともある）
検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、
プログラム側には全く問題ないだろうさ
ただ、入力側が正しく入力できるかは大問題だろうけどさ

単一の文字コー
ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな
unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て？
(例：16準拠の場合、15を完全に満たすのか、そうでないのか)
C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか)

337(1): デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3(1) AAS
>>336
最近の仕様だけ見たら混乱するよな

− もともとは同じ文字の別字形については昔の資産（unicode が作られるより前の20世紀の文字コード）にある文字だけ独立したコードポイントが割り当てられる方針だった
− その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された
− でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした
− 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか？」と言い出した
− unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった
− 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定

338: デフォルトの名無しさん [sage] 2025/07/26(土) 13:22:34.55 ID:IhScHI/D(1) AAS
>>337
日本側の状況はさもありなん
全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが

中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな
検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに
とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが

> オレオレ unicode の利用を中国国内では強制することにする
それは中国規格なので勝手にしろでいいと思うが
> unicode 側が折れて
となるのは、unicode陣営は統一コードの夢を見続けている、ということか
なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが)
非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな

まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい
現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない
可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね

339(1): デフォルトの名無しさん [sage] 2025/07/27(日) 09:27:25.30 ID:y0cxqRG2(1) AAS
>>328

328(3): デフォルトの名無しさん [sage] 2025/07/25(金) 01:59:47.04 ID:UKTPcfYB(1) AAS
PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する

>PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
>後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

これはひどい

340(2): デフォルトの名無しさん [sage] 2025/07/27(日) 09:52:00.68 ID:s52NuiMb(1/4) AAS
>>339
酷くはない
その当時はそれでも素晴らしかったから普及した
そして実際、unicode以前は完全に機能していたわけだし

どちらかというとunicodeが既存技術に対してかなり異端で、
当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ
Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない

341(1): デフォルトの名無しさん [] 2025/07/27(日) 10:08:59.26 ID:4jy4lfp7(1) AAS
>>336
単純な例で
カ
と
力
だな
こんなの一緒にされたら困る

342: デフォルトの名無しさん [sage] 2025/07/27(日) 10:52:09.39 ID:s52NuiMb(2/4) AAS
>>341
ソース違いで自体が同じ例か？
カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ
問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、
これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る

だから、unicodeのCJK統合漢字＝見た目が同じなら同じ文字、は、
検索の結果がユーザーにも予期出来る、という意味では正しい思想で、
逆に、同じ字体にも違うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる

この辺の思想が、unicodeは徹底出来ていない

343(2): デフォルトの名無しさん [sage] 2025/07/27(日) 15:00:47.82 ID:xJMx5cyL(1) AAS
>>340
そうじゃない
PostScriptと当時のフォントの詳細をほとんど知らないだろ?
だから妄想で適当なことを書く、酷いのはお前だ
ってこのぐらい書けばわかるんかな

344: デフォルトの名無しさん [sage] 2025/07/27(日) 15:43:44.47 ID:s52NuiMb(3/4) AAS
>>343
PostScript以前はプリンタによって出力結果が異なっていた為、
ファイルを渡しても印刷結果が異なる事が普通だった
(だから厳密にやるには紙でやりとりするしかなかった)
これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、
あっという間にデファクトスタンダードをとった

PostScriptはベジエなフォントをプリンタでラスタライズする
だからフォントを埋め込めば、同じ見た目の出力になる
以前のプリンタは、プリンタ内蔵のビットマップフォントを印刷してたか、
PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた
(なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、
プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから)

PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる
当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった
AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料)という方針で、
あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した
MSがWord/Excelのリーダーを無料で提供したのはその後

俺が知ってる概略はこんな所だ
PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ
(今でも十分素晴らしいとも思うが)

ぼくはおまえよりしってるんだ！！！とか要らんから、最初から知ってる事書けばいいと思うけどね
はいどうぞ

345(1): デフォルトの名無しさん [] 2025/07/27(日) 16:00:29.88 ID:IiX+k+fy(1) AAS
>PDFはPostScriptをバイナリ化したもの
doubt

346: デフォルトの名無しさん [sage] 2025/07/27(日) 16:39:24.93 ID:gwhcenFf(1) AAS
PSはプログラム言語でPDFは描画データ
門外漢のオレの理解はここまで

347: デフォルトの名無しさん [sage] 2025/07/27(日) 16:40:00.92 ID:s52NuiMb(4/4) AAS
>>345
ああ確かに、asciiと言った方が近いようだな
ただそんな関係ない所ではなく、本筋の、

> PostScriptと当時のフォントの詳細
に(自称)詳しい人から見て
> 酷い
と考える根拠を述べよ、だな

俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた
実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし
unicodeが色々おかしくしただけだよ

348: デフォルトの名無しさん [sage] 2025/07/28(月) 09:30:10.58 ID:BMbzFeOA(1) AAS
外部ﾘﾝｸ[html]:www.adobe.com

PostScriptとPDFの違いは何ですか？

PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。

349(1): デフォルトの名無しさん [sage] 2025/07/28(月) 11:28:12.87 ID:2xoiUnVU(1) AAS
postscript は紙に印刷する専用なので検索とかコピー・ペーストとかは不要だが
PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった

unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた
問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
直接的には文字コードの問題ではない

350: デフォルトの名無しさん [] 2025/07/28(月) 13:24:28.88 ID:f/ONtylv(1) AAS
ワニ□クリップも同じか

351: デフォルトの名無しさん [sage] 2025/07/29(火) 12:35:56.91 ID:kq5k6q77(1) AAS
ちゃんと知らん奴に限って総括するような話をしたがるが、悲しいかな理解が
浅いので全然正しく総括できてないあるある
これは例の何ちゃら効果の一種かもしれんね

352: デフォルトの名無しさん [sage] 2025/07/29(火) 13:59:09.33 ID:3y9fqZXC(1) AAS
詳しく知らないと総括しかできない

353(1): デフォルトの名無しさん [sage] 2025/07/29(火) 14:07:42.49 ID:OFHwVEwi(1) AAS
WebでもHTMLのimgで例えばブランドロゴを画像表示したときに
alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる
そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる

354: デフォルトの名無しさん [sage] 2025/07/29(火) 14:44:03.99 ID:GBwxra7f(1) AAS
>>353
alt に対応してないメイン・ブラウザとかはほぼ存在しないんだが…
PDF はなぁ…

355: デフォルトの名無しさん [sage] 2025/07/29(火) 19:25:27.31 ID:8QmNUBAP(1) AAS
HTMLは画像表示できずにテキスト表示のみの環境でも読めるように
そして目の不自由な人たちもテキストの音声読み上げで読めるように
HTMLコンテンツを作る側もブラウザ側両方が対応してきた
いわゆるアクセスビリティ対応が必須で常識
PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる

356: デフォルトの名無しさん [sage] 2025/07/29(火) 22:35:36.96 ID:pHNfVPjg(1) AAS
altなんて実際のところ機能してないだろ
隠しメッセージに使うとかおもちゃになってる

357: デフォルトの名無しさん [sage] 2025/07/31(木) 07:07:13.35 ID:1FIA24UI(1/8) AAS
>>343
結局、何も言えないのか？
だからゆとりZは死ねなんだな

俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる
理由は長いが以下に書き散らしたので興味あれば読んでみてくれ
2chｽﾚ:tech

お前らはお互いに足を引っ張り合ってるので成長出来てない
今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、
だから議論もろくに出来ず、幼稚なままだ
そもそも俺はPostScriptやフォントの事に一言も触れてないのに、どうして
> PostScriptと当時のフォントの詳細をほとんど知らないだろ?
> だから妄想で適当なことを書く、酷いのはお前だ
になったのかさっぱり分からない

ゆとりZは妄想で適当なことを書く、酷い連中だから
存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当
お前も死ね
ってこのぐらい書けばわかるんかな

358: デフォルトの名無しさん [sage] 2025/07/31(木) 07:09:00.90 ID:1FIA24UI(2/8) AAS
>>349
> 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ
> 直接的には文字コードの問題ではない
その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ
実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ

つまりunicodeが
> 異端 (>>340:俺)
で、
> 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺)
に現時点でなってるのも事実ではないか
PDFに関してはパチもん使わずAdobe純正品使え、だろうが、
unicodeも十分複雑すぎる仕様だから、同様の状況(＝フル実装されてないのが氾濫)になってる気はするが
(だから足抜けは許さねえ！！！なコードヤクザになるのも納得)

そもそもサロゲートペアも初段階で必須だと判断出来たはず
(だからutf-16はナンセンスだとも)
> 外部ﾘﾝｸ:skawa68.com
大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、
常識的には、いや無理でしょ、余裕無さすぎ、だし
(よく知らんがハングルも1.2万程あるようだし、参考: 外部ﾘﾝｸ:tagengo-gakushuu.study-tips.info

あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか？
なら中国が独立コードに拘る理由もありえる、というか、
これだと事実上utf-32も捨てる事になる
まあほぼutf-8なので今更どうでもいいのも事実だが

359(1): デフォルトの名無しさん [sage] 2025/07/31(木) 07:55:06.21 ID:1FIA24UI(3/8) AAS
思うにunicodeは、文字化けのない世界を提示したのは素晴らしいにしても、
一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする
全ての言語を話せる人が居ない以上、
IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる
だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない
これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、
だから橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、
実際破綻しまくっているのも、元々無理があるからだ

つまり、例のブランコ、
「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない
(会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、
全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない)

まあIT版バベルの塔であり、どこまで行けるかという話だが
実際、自分には関係ない機能なんて、実装するモチベわかないものだし
(大体において実際困ってるから動くのがほぼ全員で、困ってなければ誰も動かない
この意味では、unicodeがフル実装される未来なんて多分存在しない)

360(1): デフォルトの名無しさん [sage] 2025/07/31(木) 10:38:37.81 ID:Ztum1zAi(1/4) AAS
>>359
気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた
変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ
PDF は文字コード表にない文字（フォント）まで扱えることを知ってればコピペ等で化ける（別の字への置き換え）は当然の仕様と知れる

上下前次 1-新書関写板覧索設栞歴

あと 102 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.021s