文字コード総合スレ part15 (330レス)
1-

306: デフォルトの名無しさん [sage] 2025/05/08(木) 12:28:18.82 ID:of3Q4Bd7(1) AAS
ちっぱいでもいいじゃん
307: デフォルトの名無しさん [sage] 2025/05/08(木) 16:10:03.97 ID:n8dUtc6U(1/2) AAS
>>305
305(1): デフォルトの名無しさん [] 2025/05/08(木) 03:15:04.31 ID:US+UAC1U(3/4) AAS
要するにパス名正規化は無意味で無駄
いや正規化やっても良いんだよ
ただしやるなら規格書どおりにやれ
勝手仕様でやられると対応に困る
308
(1): デフォルトの名無しさん [sage] 2025/05/08(木) 23:33:49.27 ID:pZAMgdYa(1) AAS
規格には則ってる
複数あって非互換なのが問題
309: デフォルトの名無しさん [sage] 2025/05/08(木) 23:40:58.88 ID:n8dUtc6U(2/2) AAS
>>308
MacOS のやつは規格にあってないんだよ
しったかすんな
310: デフォルトの名無しさん [] 2025/05/08(木) 23:51:00.29 ID:US+UAC1U(4/4) AAS
せめてNFCにしてればな
殆どの文書はNFCで構成されるんだから
それでもUnicodeは規格がバージョンごとに違うからなあ
正規化が無駄な努力
311
(1): デフォルトの名無しさん [sage] 2025/05/09(金) 02:29:43.44 ID:3ts3cFTs(1) AAS
>>303
303(1): デフォルトの名無しさん [] 2025/05/08(木) 02:26:11.93 ID:US+UAC1U(1/4) AAS
>>258
多分Mac OS Xのファイル名にNFDを採用したのは
辞書順がdiacriticsを無視する言語文化圏の人だったのでは
欧州では多数派だけど唯一ではない
>>121
OS kernelのsyscall部分で矯正してるわけではなくて
file system driverがやってる(ただしDarwinソースを確認したのは10年以上前)
だからUSBメモリだとかNFSだと、NFCでも書ける
ただし他の人も書いてる通りライブラリでも強制してる
CLIだと関係ない
ファイルコピーとかするときは毎回、正規化の変換が発生する感じ?
(不明な正規化)->(特定の正規化) ってのは問題ないんだっけ?

一方でファイルビューア(Finder)とか上の方はどのFS上にいるとか意識
したくないだろうからなあ。そこでも正規化の変換が起こるのかな?
312: デフォルトの名無しさん [] 2025/05/09(金) 11:12:25.67 ID:oh4Slinf(1) AAS
ファイルビューア
↓正規化
ファイルヒ゛ューア

こんなのやだな
313: デフォルトの名無しさん [sage] 2025/05/09(金) 12:07:16.82 ID:OoJ+JMZS(1) AAS
EBCDICカナ文字の話みたい。
ごめんなさい、ごめんなさい、ごめんなさい。
314: デフォルトの名無しさん [] 2025/05/09(金) 15:56:58.76 ID:yePfNbNe(1) AAS
>>311
最近macOSは余り触ってないが昔は
(様々な理由により以下の状況が起きて)
ファイルビューア
ファイルヒ゛ューア
の両方がディレクトリにある場合に、Finder.appでは
ファイルビューア
ファイルビューア
と表示され後者しかアクセス出来なかった
Cocoaが正規化してユーザやカーネルに渡すから
315: デフォルトの名無しさん [] 2025/05/13(火) 18:18:02.49 ID:El9a77up(1) AAS
字にはヒラギノール
316
(3): デフォルトの名無しさん [sage] 2025/07/20(日) 21:42:09.27 ID:v9zpB8iu(1) AAS
Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは?
外部リンク:togetter.com
317
(1): デフォルトの名無しさん [sage] 2025/07/20(日) 22:29:37.55 ID:0FYiUEbf(1) AAS
>>316
文字コードの問題ではなく単なるバグ
より正確にいうと大昔からある PDF のフォントの使い方の問題

PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる
フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる
複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる
318: デフォルトの名無しさん [sage] 2025/07/22(火) 01:09:42.93 ID:g3Tn7WHZ(1) AAS
>>316 みたいな奴が参政党に投票する
319: デフォルトの名無しさん [sage] 2025/07/22(火) 12:00:50.20 ID:Yl+nv6VH(1) AAS
アドビはタイプセッター屋じゃけぇ、フォントファーストじゃけぇ
320
(1): デフォルトの名無しさん [sage] 2025/07/22(火) 12:55:59.74 ID:nZDCfJLI(1) AAS
>>317
しかし1:1になるように、
つまり同じ字形が複数の文字コードで使われるなら、同じ字形のフォントを別登録してしまえば回避出来るのでは?
ならPDF出力ソフトが糞なだけ
321
(1): デフォルトの名無しさん [sage] 2025/07/22(火) 13:37:16.00 ID:bKhKMrtD(1/2) AAS
>>320
そんなことしたらサイズが無駄にでかくなるだろ
PDFがアホなのは同意だが、unicode普及以前の技術なのを思い出せ
322
(1): デフォルトの名無しさん [sage] 2025/07/22(火) 15:01:08.85 ID:yoaKkUTS(1/2) AAS
>>321
大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし

> unicode普及以前の技術なのを思い出せ
unicode以外では特に問題なかったのなら、unicode側の問題であり、
unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ

お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ
323
(1): デフォルトの名無しさん [sage] 2025/07/22(火) 19:20:34.51 ID:bKhKMrtD(2/2) AAS
>>322
違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ
でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ
本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ
324: デフォルトの名無しさん [sage] 2025/07/22(火) 22:22:27.85 ID:yoaKkUTS(2/2) AAS
>>323
となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな

とはいえ今更本家からの統制は無理だし、
この問題を認識した上で各自が対応するしかなさそうだな
(そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか)
325: デフォルトの名無しさん [] 2025/07/24(木) 18:46:53.48 ID:bvlLnJ99(1) AAS
>>316
PDFの仕様が自由すぎるからだぞ?
326
(1): デフォルトの名無しさん [sage] 2025/07/24(木) 19:36:31.51 ID:Gx5EDFfz(1) AAS
adobeはPDF2.0に対応したのか、やる気もないのか、とふと思った
327: デフォルトの名無しさん [sage] 2025/07/24(木) 21:57:49.45 ID:PCIysLOC(1) AAS
>>326
対応とは?
PDF-2.0 が何か知ってて言ってるのか?↓
328
(1): デフォルトの名無しさん [sage] 2025/07/25(金) 01:59:47.04 ID:UKTPcfYB(1) AAS
PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの
後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない

PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで
グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った
アプリがこの表を適宜生成しないと文字化けが発生する
329
(1): デフォルトの名無しさん [sage] 2025/07/25(金) 07:07:21.05 ID:yWMF+wv2(1) AAS
>>328
それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、
アプリ製作者がunicodeについて無知なのが原因だろう

ただ、unicodeも無駄に冗長すぎるようにも見える
K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと?
今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい

そして割と問題なのが、検索で引っかからなくなる事
検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし

unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん
330: デフォルトの名無しさん [sage] 2025/07/25(金) 09:21:41.11 ID:5+UAzUxo(1) AAS
>>329
元々の unicode は実践主義、御都合主義ともいう。
過去に別の文字として同時に実装された記録があれば別の文字として登録。
1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.819s*