文字コード総合スレ part15 (462レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
336: デフォルトの名無しさん [sage] 2025/07/26(土) 08:13:11.69 ID:PF0bui/v >>335 うむ、意図が分からん 「斉」は独立コ ードも与え、IVDにも登録、 「葛」は独立コー ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな 実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる 無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、 仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな (大方やってるうちに足りなくなって途中で方針変更
だろうが、これをやられると悲惨なことになる) > ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) 検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、 プログラム側には全く問題ないだろうさ ただ、入力側が正しく入力できるかは大問題だろうけどさ 単一の文字コー ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て? (例:16準拠の場合、15を完全に満たすのか、そうでない
のか) C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/336
337: デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3 >>336 最近の仕様だけ見たら混乱するよな − もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった − その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された − でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登
録していく方針にした − 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した − unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった − 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定 http://mevius.5ch.net/test/read.cgi/tech
/1723861080/337
338: デフォルトの名無しさん [sage] 2025/07/26(土) 13:22:34.55 ID:IhScHI/D >>337 日本側の状況はさもありなん 全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが 中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな 検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが > オレオレ unicode の利用を中国国内では強制することにする それは中国規格なので勝手
にしろでいいと思うが > unicode 側が折れて となるのは、unicode陣営は統一コードの夢を見続けている、ということか なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが) 非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい 現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない 可能であればさっさと独立コードになってる物を仕様から落とすべきだが、こ
れは難しいのだろうね http://mevius.5ch.net/test/read.cgi/tech/1723861080/338
339: デフォルトの名無しさん [sage] 2025/07/27(日) 09:27:25.30 ID:y0cxqRG2 >>328 >PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの >後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない これはひどい http://mevius.5ch.net/test/read.cgi/tech/1723861080/339
340: デフォルトの名無しさん [sage] 2025/07/27(日) 09:52:00.68 ID:s52NuiMb >>339 酷くはない その当時はそれでも素晴らしかったから普及した そして実際、unicode以前は完全に機能していたわけだし どちらかというとunicodeが既存技術に対してかなり異端で、 当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない http://mevius.5ch.net/test/read.cgi/tech/1723861080/340
341: デフォルトの名無しさん [] 2025/07/27(日) 10:08:59.26 ID:4jy4lfp7 >>336 単純な例で カ と 力 だな こんなの一緒にされたら困る http://mevius.5ch.net/test/read.cgi/tech/1723861080/341
342: デフォルトの名無しさん [sage] 2025/07/27(日) 10:52:09.39 ID:s52NuiMb >>341 ソース違いで自体が同じ例か? カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ 問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、 これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る だから、unicodeのCJK統合漢字=見た目が同じなら同じ文字、は、 検索の結果がユーザーにも予期出来る、という意味では正しい思想で、 逆に、同じ字体にも違
うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる この辺の思想が、unicodeは徹底出来ていない http://mevius.5ch.net/test/read.cgi/tech/1723861080/342
343: デフォルトの名無しさん [sage] 2025/07/27(日) 15:00:47.82 ID:xJMx5cyL >>340 そうじゃない PostScriptと当時のフォントの詳細をほとんど知らないだろ? だから妄想で適当なことを書く、酷いのはお前だ ってこのぐらい書けばわかるんかな http://mevius.5ch.net/test/read.cgi/tech/1723861080/343
344: デフォルトの名無しさん [sage] 2025/07/27(日) 15:43:44.47 ID:s52NuiMb >>343 PostScript以前はプリンタによって出力結果が異なっていた為、 ファイルを渡しても印刷結果が異なる事が普通だった (だから厳密にやるには紙でやりとりするしかなかった) これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、 あっという間にデファクトスタンダードをとった PostScriptはベジエなフォントをプリンタでラスタライズする だからフォントを埋め込めば、同じ見た目の出力になる 以前のプリンタは、プリンタ内蔵のビットマッ
プフォントを印刷してたか、 PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた (なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、 プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから) PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる 当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料
)という方針で、 あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した MSがWord/Excelのリーダーを無料で提供したのはその後 俺が知ってる概略はこんな所だ PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ (今でも十分素晴らしいとも思うが) ぼくはおまえよりしってるんだ!!!とか要らんから、最初から知ってる事書けばいいと思うけどね はいどうぞ http://mevius.5ch.net/test/read.cgi/tech/1723861080/344
345: デフォルトの名無しさん [] 2025/07/27(日) 16:00:29.88 ID:IiX+k+fy >PDFはPostScriptをバイナリ化したもの doubt http://mevius.5ch.net/test/read.cgi/tech/1723861080/345
346: デフォルトの名無しさん [sage] 2025/07/27(日) 16:39:24.93 ID:gwhcenFf PSはプログラム言語でPDFは描画データ 門外漢のオレの理解はここまで http://mevius.5ch.net/test/read.cgi/tech/1723861080/346
347: デフォルトの名無しさん [sage] 2025/07/27(日) 16:40:00.92 ID:s52NuiMb >>345 ああ確かに、asciiと言った方が近いようだな ただそんな関係ない所ではなく、本筋の、 > PostScriptと当時のフォントの詳細 に(自称)詳しい人から見て > 酷い と考える根拠を述べよ、だな 俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた 実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし unicodeが色々おかしくしただけだよ http
://mevius.5ch.net/test/read.cgi/tech/1723861080/347
348: デフォルトの名無しさん [sage] 2025/07/28(月) 09:30:10.58 ID:BMbzFeOA https://www.adobe.com/jp/creativecloud/file-types/image/vector/ps-file.html PostScriptとPDFの違いは何ですか? PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/348
349: デフォルトの名無しさん [sage] 2025/07/28(月) 11:28:12.87 ID:2xoiUnVU postscript は紙に印刷する専用なので検索とかコピー・ペーストとかは不要だが PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ 直接的
には文字コードの問題ではない http://mevius.5ch.net/test/read.cgi/tech/1723861080/349
350: デフォルトの名無しさん [] 2025/07/28(月) 13:24:28.88 ID:f/ONtylv ワニ□クリップも同じか http://mevius.5ch.net/test/read.cgi/tech/1723861080/350
351: デフォルトの名無しさん [sage] 2025/07/29(火) 12:35:56.91 ID:kq5k6q77 ちゃんと知らん奴に限って総括するような話をしたがるが、悲しいかな理解が 浅いので全然正しく総括できてないあるある これは例の何ちゃら効果の一種かもしれんね http://mevius.5ch.net/test/read.cgi/tech/1723861080/351
352: デフォルトの名無しさん [sage] 2025/07/29(火) 13:59:09.33 ID:3y9fqZXC 詳しく知らないと総括しかできない http://mevius.5ch.net/test/read.cgi/tech/1723861080/352
353: デフォルトの名無しさん [sage] 2025/07/29(火) 14:07:42.49 ID:OFHwVEwi WebでもHTMLのimgで例えばブランドロゴを画像表示したときに alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる http://mevius.5ch.net/test/read.cgi/tech/1723861080/353
354: デフォルトの名無しさん [sage] 2025/07/29(火) 14:44:03.99 ID:GBwxra7f >>353 alt に対応してないメイン・ブラウザとかはほぼ存在しないんだが… PDF はなぁ… http://mevius.5ch.net/test/read.cgi/tech/1723861080/354
355: デフォルトの名無しさん [sage] 2025/07/29(火) 19:25:27.31 ID:8QmNUBAP HTMLは画像表示できずにテキスト表示のみの環境でも読めるように そして目の不自由な人たちもテキストの音声読み上げで読めるように HTMLコンテンツを作る側もブラウザ側両方が対応してきた いわゆるアクセスビリティ対応が必須で常識 PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる http://mevius.5ch.net/test/read.cgi/tech/1723861080/355
356: デフォルトの名無しさん [sage] 2025/07/29(火) 22:35:36.96 ID:pHNfVPjg altなんて実際のところ機能してないだろ 隠しメッセージに使うとかおもちゃになってる http://mevius.5ch.net/test/read.cgi/tech/1723861080/356
357: デフォルトの名無しさん [sage] 2025/07/31(木) 07:07:13.35 ID:1FIA24UI >>343 結局、何も言えないのか? だからゆとりZは死ねなんだな 俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる 理由は長いが以下に書き散らしたので興味あれば読んでみてくれ https://mevius.5ch.net/test/read.cgi/tech/1739527246/529- お前らはお互いに足を引っ張り合ってるので成長出来てない 今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、 だから議論もろくに出来ず、幼稚なままだ そもそも俺はPostScriptやフォントの事に一言も
触れてないのに、どうして > PostScriptと当時のフォントの詳細をほとんど知らないだろ? > だから妄想で適当なことを書く、酷いのはお前だ になったのかさっぱり分からない ゆとりZは妄想で適当なことを書く、酷い連中だから 存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当 お前も死ね ってこのぐらい書けばわかるんかな http://mevius.5ch.net/test/read.cgi/tech/1723861080/357
358: デフォルトの名無しさん [sage] 2025/07/31(木) 07:09:00.90 ID:1FIA24UI >>349 > 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ > 直接的には文字コードの問題ではない その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ 実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ つまりunicodeが > 異端 (>>340:俺) で、 > 確実にどこかで破綻する気はする(か、そもそも
実装してもらえないか) (>>336:俺) に現時点でなってるのも事実ではないか PDFに関してはパチもん使わずAdobe純正品使え、だろうが、 unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが (だから足抜けは許さねえ!!!なコードヤクザになるのも納得) そもそもサロゲートペアも初段階で必須だと判断出来たはず (だからutf-16はナンセンスだとも) > https://skawa68.com/2024/07/31/post-81230/ 大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、 常識的には
、いや無理でしょ、余裕無さすぎ、だし (よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf) あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか? なら中国が独立コードに拘る理由もありえる、というか、 これだと事実上utf-32も捨てる事になる まあほぼutf-8なので今更どうでもいいのも事実だが http://mevius.5ch.net/test/read.cgi/tech/1723861080/358
359: デフォルトの名無しさん [sage] 2025/07/31(木) 07:55:06.21 ID:1FIA24UI 思うにunicodeは、文字化けのない世界を提示したのは素晴らしいにしても、 一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする 全ての言語を話せる人が居ない以上、 IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、 だか
ら橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、 実際破綻しまくっているのも、元々無理があるからだ つまり、例のブランコ、 「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない (会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、 全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない) まあIT版バベルの塔であり、どこまで行けるかという話だが 実際、自分には関係ない機能なんて、実装するモチベわかないものだし (大体において実際困ってるから動くの
がほぼ全員で、困ってなければ誰も動かない この意味では、unicodeがフル実装される未来なんて多分存在しない) http://mevius.5ch.net/test/read.cgi/tech/1723861080/359
360: デフォルトの名無しさん [sage] 2025/07/31(木) 10:38:37.81 ID:Ztum1zAi >>359 気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた 変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ PDF は文字コード表にない文字(フォント)まで扱えることを知ってればコピペ等で化ける(別の字への置き換え)は当然の仕様と知れる http://mevius.5ch.net/test/read
.cgi/tech/1723861080/360
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 102 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.972s*