文字コード総合スレ part15 (336レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
312: デフォルトの名無しさん [] 2025/05/09(金) 11:12:25.67 ID:oh4Slinf ファイルビューア ↓正規化 ファイルヒ゛ューア こんなのやだな http://mevius.5ch.net/test/read.cgi/tech/1723861080/312
313: デフォルトの名無しさん [sage] 2025/05/09(金) 12:07:16.82 ID:OoJ+JMZS EBCDICカナ文字の話みたい。 ごめんなさい、ごめんなさい、ごめんなさい。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/313
314: デフォルトの名無しさん [] 2025/05/09(金) 15:56:58.76 ID:yePfNbNe >>311 最近macOSは余り触ってないが昔は (様々な理由により以下の状況が起きて) ファイルビューア ファイルヒ゛ューア の両方がディレクトリにある場合に、Finder.appでは ファイルビューア ファイルビューア と表示され後者しかアクセス出来なかった Cocoaが正規化してユーザやカーネルに渡すから http://mevius.5ch.net/test/read.cgi/tech/1723861080/314
315: デフォルトの名無しさん [] 2025/05/13(火) 18:18:02.49 ID:El9a77up 字にはヒラギノール http://mevius.5ch.net/test/read.cgi/tech/1723861080/315
316: デフォルトの名無しさん [sage] 2025/07/20(日) 21:42:09.27 ID:v9zpB8iu Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは? https://togetter.com/li/2577928 http://mevius.5ch.net/test/read.cgi/tech/1723861080/316
317: デフォルトの名無しさん [sage] 2025/07/20(日) 22:29:37.55 ID:0FYiUEbf >>316 文字コードの問題ではなく単なるバグ より正確にいうと大昔からある PDF のフォントの使い方の問題 PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる 複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる http://mevius.5ch.net/test/read.cgi/tech/1723861080/317
318: デフォルトの名無しさん [sage] 2025/07/22(火) 01:09:42.93 ID:g3Tn7WHZ >>316 みたいな奴が参政党に投票する http://mevius.5ch.net/test/read.cgi/tech/1723861080/318
319: デフォルトの名無しさん [sage] 2025/07/22(火) 12:00:50.20 ID:Yl+nv6VH アドビはタイプセッター屋じゃけぇ、フォントファーストじゃけぇ http://mevius.5ch.net/test/read.cgi/tech/1723861080/319
320: デフォルトの名無しさん [sage] 2025/07/22(火) 12:55:59.74 ID:nZDCfJLI >>317 しかし1:1になるように、 つまり同じ字形が複数の文字コードで使われるなら、同じ字形のフォントを別登録してしまえば回避出来るのでは? ならPDF出力ソフトが糞なだけ http://mevius.5ch.net/test/read.cgi/tech/1723861080/320
321: デフォルトの名無しさん [sage] 2025/07/22(火) 13:37:16.00 ID:bKhKMrtD >>320 そんなことしたらサイズが無駄にでかくなるだろ PDFがアホなのは同意だが、unicode普及以前の技術なのを思い出せ http://mevius.5ch.net/test/read.cgi/tech/1723861080/321
322: デフォルトの名無しさん [sage] 2025/07/22(火) 15:01:08.85 ID:yoaKkUTS >>321 大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし > unicode普及以前の技術なのを思い出せ unicode以外では特に問題なかったのなら、unicode側の問題であり、 unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/322
323: デフォルトの名無しさん [sage] 2025/07/22(火) 19:20:34.51 ID:bKhKMrtD >>322 違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ 本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/323
324: デフォルトの名無しさん [sage] 2025/07/22(火) 22:22:27.85 ID:yoaKkUTS >>323 となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな とはいえ今更本家からの統制は無理だし、 この問題を認識した上で各自が対応するしかなさそうだな (そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/324
325: デフォルトの名無しさん [] 2025/07/24(木) 18:46:53.48 ID:bvlLnJ99 >>316 PDFの仕様が自由すぎるからだぞ? http://mevius.5ch.net/test/read.cgi/tech/1723861080/325
326: デフォルトの名無しさん [sage] 2025/07/24(木) 19:36:31.51 ID:Gx5EDFfz adobeはPDF2.0に対応したのか、やる気もないのか、とふと思った http://mevius.5ch.net/test/read.cgi/tech/1723861080/326
327: デフォルトの名無しさん [sage] 2025/07/24(木) 21:57:49.45 ID:PCIysLOC >>326 対応とは? PDF-2.0 が何か知ってて言ってるのか?↓ http://mevius.5ch.net/test/read.cgi/tech/1723861080/327
328: デフォルトの名無しさん [sage] 2025/07/25(金) 01:59:47.04 ID:UKTPcfYB PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの 後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った アプリがこの表を適宜生成しないと文字化けが発生する http://mevius.5ch.net/test/read.cgi/tech/1723861080/328
329: デフォルトの名無しさん [sage] 2025/07/25(金) 07:07:21.05 ID:yWMF+wv2 >>328 それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、 アプリ製作者がunicodeについて無知なのが原因だろう ただ、unicodeも無駄に冗長すぎるようにも見える K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと? 今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい そして割と問題なのが、検索で引っかからなくなる事 検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん http://mevius.5ch.net/test/read.cgi/tech/1723861080/329
330: デフォルトの名無しさん [sage] 2025/07/25(金) 09:21:41.11 ID:5+UAzUxo >>329 元々の unicode は実践主義、御都合主義ともいう。 過去に別の文字として同時に実装された記録があれば別の文字として登録。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/330
331: デフォルトの名無しさん [sage] 2025/07/25(金) 11:08:12.46 ID:yWMF+wv2 >>330 つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか (と思ったらもうあった、0x9f4a〜8文字のようだ) 仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、 unicodeもこの軌道に乗ってるな (もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか?) http://mevius.5ch.net/test/read.cgi/tech/1723861080/331
332: デフォルトの名無しさん [sage] 2025/07/25(金) 14:05:16.33 ID:TViBdD0W >>331 戸籍/汎用電子情報交換環境/文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる http://mevius.5ch.net/test/read.cgi/tech/1723861080/332
333: デフォルトの名無しさん [sage] 2025/07/25(金) 18:28:38.05 ID:yWMF+wv2 >>332 正式名称は知らんが、俺が言ってるのはそれだな ググったら総務省が音頭取ってやってるのか?色々出てきたが、 少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな? にしても検索どうするんだこれ?だし、 最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが http://mevius.5ch.net/test/read.cgi/tech/1723861080/333
334: デフォルトの名無しさん [sage] 2025/07/25(金) 19:02:45.52 ID:yWMF+wv2 と思ったが、IVSは直後に枝番付加する方式か まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる ちなみにこれ、実際のグリフを算出するにはどうするのだ? 異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか? というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、 もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、 必ず元字+枝番のセットで使うのが仕様か?(この方がいいが) http://mevius.5ch.net/test/read.cgi/tech/1723861080/334
335: デフォルトの名無しさん [sage] 2025/07/25(金) 19:10:28.15 ID:5+UAzUxo >>334 IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) http://mevius.5ch.net/test/read.cgi/tech/1723861080/335
336: デフォルトの名無しさん [sage] 2025/07/26(土) 08:13:11.69 ID:PF0bui/v >>335 うむ、意図が分からん 「斉」は独立コ ードも与え、IVDにも登録、 「葛」は独立コー ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな 実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる 無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、 仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな (大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる) > ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) 検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、 プログラム側には全く問題ないだろうさ ただ、入力側が正しく入力できるかは大問題だろうけどさ 単一の文字コー ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て? (例:16準拠の場合、15を完全に満たすのか、そうでないのか) C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/336
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.786s*