文字コード総合スレ part15 (405レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
1: デフォルトの名無しさん [] 2024/08/17(土) 11:18:00.01 ID:VHa7+i59 文字コードについて語り合うスレです http://mevius.5ch.net/test/read.cgi/tech/1723861080/1
306: デフォルトの名無しさん [sage] 2025/05/08(木) 12:28:18.82 ID:of3Q4Bd7 ちっぱいでもいいじゃん http://mevius.5ch.net/test/read.cgi/tech/1723861080/306
307: デフォルトの名無しさん [sage] 2025/05/08(木) 16:10:03.97 ID:n8dUtc6U >>305 いや正規化やっても良いんだよ ただしやるなら規格書どおりにやれ 勝手仕様でやられると対応に困る http://mevius.5ch.net/test/read.cgi/tech/1723861080/307
308: デフォルトの名無しさん [sage] 2025/05/08(木) 23:33:49.27 ID:pZAMgdYa 規格には則ってる 複数あって非互換なのが問題 http://mevius.5ch.net/test/read.cgi/tech/1723861080/308
309: デフォルトの名無しさん [sage] 2025/05/08(木) 23:40:58.88 ID:n8dUtc6U >>308 MacOS のやつは規格にあってないんだよ しったかすんな http://mevius.5ch.net/test/read.cgi/tech/1723861080/309
310: デフォルトの名無しさん [] 2025/05/08(木) 23:51:00.29 ID:US+UAC1U せめてNFCにしてればな 殆どの文書はNFCで構成されるんだから それでもUnicodeは規格がバージョンごとに違うからなあ 正規化が無駄な努力 http://mevius.5ch.net/test/read.cgi/tech/1723861080/310
311: デフォルトの名無しさん [sage] 2025/05/09(金) 02:29:43.44 ID:3ts3cFTs >>303 ファイルコピーとかするときは毎回、正規化の変換が発生する感じ? (不明な正規化)->(特定の正規化) ってのは問題ないんだっけ? 一方でファイルビューア(Finder)とか上の方はどのFS上にいるとか意識 したくないだろうからなあ。そこでも正規化の変換が起こるのかな? http://mevius.5ch.net/test/read.cgi/tech/1723861080/311
312: デフォルトの名無しさん [] 2025/05/09(金) 11:12:25.67 ID:oh4Slinf ファイルビューア ↓正規化 ファイルヒ゛ューア こんなのやだな http://mevius.5ch.net/test/read.cgi/tech/1723861080/312
313: デフォルトの名無しさん [sage] 2025/05/09(金) 12:07:16.82 ID:OoJ+JMZS EBCDICカナ文字の話みたい。 ごめんなさい、ごめんなさい、ごめんなさい。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/313
314: デフォルトの名無しさん [] 2025/05/09(金) 15:56:58.76 ID:yePfNbNe >>311 最近macOSは余り触ってないが昔は (様々な理由により以下の状況が起きて) ファイルビューア ファイルヒ゛ューア の両方がディレクトリにある場合に、Finder.appでは ファイルビューア ファイルビューア と表示され後者しかアクセス出来なかった Cocoaが正規化してユーザやカーネルに渡すから http://mevius.5ch.net/test/read.cgi/tech/1723861080/314
315: デフォルトの名無しさん [] 2025/05/13(火) 18:18:02.49 ID:El9a77up 字にはヒラギノール http://mevius.5ch.net/test/read.cgi/tech/1723861080/315
316: デフォルトの名無しさん [sage] 2025/07/20(日) 21:42:09.27 ID:v9zpB8iu Microsoft Print to PDFで出力したファイルからテキストをコピペしたら文字化けしてた…→実はPDFの仕様に潜む本質的な欠陥が原因なのでは? https://togetter.com/li/2577928 http://mevius.5ch.net/test/read.cgi/tech/1723861080/316
317: デフォルトの名無しさん [sage] 2025/07/20(日) 22:29:37.55 ID:0FYiUEbf >>316 文字コードの問題ではなく単なるバグ より正確にいうと大昔からある PDF のフォントの使い方の問題 PDF はウェブと違って文字コードをデフォルトでは埋め込んでなくてフォント内の番号で直接埋め込んでる フィント番号と文字コードが1対1でマップしている保証はないのに、コピペの時はフォントに埋め込みの変換表で番号から文字コード生成する仕組になってる 複数の文字コードに同じフォントを割り当てているフォントを使うとこの問題が起きる http://mevius.5ch.net/test/read.cgi/tech/1723861080/317
318: デフォルトの名無しさん [sage] 2025/07/22(火) 01:09:42.93 ID:g3Tn7WHZ >>316 みたいな奴が参政党に投票する http://mevius.5ch.net/test/read.cgi/tech/1723861080/318
319: デフォルトの名無しさん [sage] 2025/07/22(火) 12:00:50.20 ID:Yl+nv6VH アドビはタイプセッター屋じゃけぇ、フォントファーストじゃけぇ http://mevius.5ch.net/test/read.cgi/tech/1723861080/319
320: デフォルトの名無しさん [sage] 2025/07/22(火) 12:55:59.74 ID:nZDCfJLI >>317 しかし1:1になるように、 つまり同じ字形が複数の文字コードで使われるなら、同じ字形のフォントを別登録してしまえば回避出来るのでは? ならPDF出力ソフトが糞なだけ http://mevius.5ch.net/test/read.cgi/tech/1723861080/320
321: デフォルトの名無しさん [sage] 2025/07/22(火) 13:37:16.00 ID:bKhKMrtD >>320 そんなことしたらサイズが無駄にでかくなるだろ PDFがアホなのは同意だが、unicode普及以前の技術なのを思い出せ http://mevius.5ch.net/test/read.cgi/tech/1723861080/321
322: デフォルトの名無しさん [sage] 2025/07/22(火) 15:01:08.85 ID:yoaKkUTS >>321 大きくはなるが、1%も変わらんだろ、その文書で使った物だけそうすればいいのだし > unicode普及以前の技術なのを思い出せ unicode以外では特に問題なかったのなら、unicode側の問題であり、 unicodeをPDF化するときには数パーセント大きくなる、で済んだ話だろ お前がPDF嫌いなのは分かるが、技術的には、unicodeで仕様を拡大したのにPDF出力ソフトが対応出来てないだけだろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/322
323: デフォルトの名無しさん [sage] 2025/07/22(火) 19:20:34.51 ID:bKhKMrtD >>322 違うんだ。unicode その他の対応の拡張で PDF の仕様自体は更新されてるんだ でもその機能にちゃんと対応している pdf 作成ツールや pdf viewer が少ないだけなんだ 本家の Adobe で作成して Adobe で読めば問題なかったりするんだよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/323
324: デフォルトの名無しさん [sage] 2025/07/22(火) 22:22:27.85 ID:yoaKkUTS >>323 となるとPDF側はすべき事はやってて、unicodeと糞ソフトの問題だな とはいえ今更本家からの統制は無理だし、 この問題を認識した上で各自が対応するしかなさそうだな (そういえば最近無駄にコピペさせないPDFが増えた気がするが、実は糞ソフト側のパッチ対応であったか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/324
325: デフォルトの名無しさん [] 2025/07/24(木) 18:46:53.48 ID:bvlLnJ99 >>316 PDFの仕様が自由すぎるからだぞ? http://mevius.5ch.net/test/read.cgi/tech/1723861080/325
326: デフォルトの名無しさん [sage] 2025/07/24(木) 19:36:31.51 ID:Gx5EDFfz adobeはPDF2.0に対応したのか、やる気もないのか、とふと思った http://mevius.5ch.net/test/read.cgi/tech/1723861080/326
327: デフォルトの名無しさん [sage] 2025/07/24(木) 21:57:49.45 ID:PCIysLOC >>326 対応とは? PDF-2.0 が何か知ってて言ってるのか?↓ http://mevius.5ch.net/test/read.cgi/tech/1723861080/327
328: デフォルトの名無しさん [sage] 2025/07/25(金) 01:59:47.04 ID:UKTPcfYB PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの 後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない PostScriptの仕様をPDFに流用する時、検索ができないのは不便だからってんで グリフ番号→文字コードのマッピング表をPDFファイルに埋め込める仕組みを作った アプリがこの表を適宜生成しないと文字化けが発生する http://mevius.5ch.net/test/read.cgi/tech/1723861080/328
329: デフォルトの名無しさん [sage] 2025/07/25(金) 07:07:21.05 ID:yWMF+wv2 >>328 それで、unicode以外ではグリフと文字コードが1:1だから問題にならなかったのなら、 アプリ製作者がunicodeについて無知なのが原因だろう ただ、unicodeも無駄に冗長すぎるようにも見える K(0x212a:Kelvin sign)とか、K(0x4b:大文字K)が今までの全ての文書で使われてるのに今更どうしろと? 今後「KをKに修正しろ」と誤字を指摘するKelvin警察が生まれるとウザい そして割と問題なのが、検索で引っかからなくなる事 検索時には区別しないのなら、最初から今まで通り同じフォントでよくね?だし unicodeが何を目指してどういう着地点を想定してるのかさっぱり分からん http://mevius.5ch.net/test/read.cgi/tech/1723861080/329
330: デフォルトの名無しさん [sage] 2025/07/25(金) 09:21:41.11 ID:5+UAzUxo >>329 元々の unicode は実践主義、御都合主義ともいう。 過去に別の文字として同時に実装された記録があれば別の文字として登録。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/330
331: デフォルトの名無しさん [sage] 2025/07/25(金) 11:08:12.46 ID:yWMF+wv2 >>330 つまり、あらゆる文字コードの上位セットにしてしまえば、文字コードを統一出来るとの考えか しかしこれだとあらゆる方言を内包する事になるので、おかしくなりかけてるのが今か どこかの自治体が「斉」の文字を外字で19種登録してたら、これもいつか実装されるというわけか (と思ったらもうあった、0x9f4a〜8文字のようだ) 仕様を適宜整理出来ず、ムダ仕様が膨らみ、メンテ不能になるのは、あるあるだけど、 unicodeもこの軌道に乗ってるな (もしかして欧米連中はこの辺の仕様の整理が上手くて、下手糞なCJKを混入したからおかしくなってるだけか?) http://mevius.5ch.net/test/read.cgi/tech/1723861080/331
332: デフォルトの名無しさん [sage] 2025/07/25(金) 14:05:16.33 ID:TViBdD0W >>331 戸籍/汎用電子情報交換環境/文字情報基盤の「斎」の変種のことなら unicode には IVD として全部登録されてる http://mevius.5ch.net/test/read.cgi/tech/1723861080/332
333: デフォルトの名無しさん [sage] 2025/07/25(金) 18:28:38.05 ID:yWMF+wv2 >>332 正式名称は知らんが、俺が言ってるのはそれだな ググったら総務省が音頭取ってやってるのか?色々出てきたが、 少なくとも規格化してから登録してるようだから、最低限の重複チェック等はあるはずで、まあ何とかなるのかな? にしても検索どうするんだこれ?だし、 最近の絵文字の氾濫も、当初の想定からかなり逸脱してるのではないかと思うが http://mevius.5ch.net/test/read.cgi/tech/1723861080/333
334: デフォルトの名無しさん [sage] 2025/07/25(金) 19:02:45.52 ID:yWMF+wv2 と思ったが、IVSは直後に枝番付加する方式か まあ、比較的マシ、というか、真面目にやるならこれしかない程度には洗練されてる ちなみにこれ、実際のグリフを算出するにはどうするのだ? 異体字が全部Exxxなようで、辞書引きするしかなく、それがIVDなのか? というか各者の説明読む限り、845B+E0100指定すれば勝手にそれが出てくる的な書き方で、 もしかして「斉」のようにunicode側に独立したコードを割り当てておらず、 必ず元字+枝番のセットで使うのが仕様か?(この方がいいが) http://mevius.5ch.net/test/read.cgi/tech/1723861080/334
335: デフォルトの名無しさん [sage] 2025/07/25(金) 19:10:28.15 ID:5+UAzUxo >>334 IVD は重複登録が許されてる。ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) http://mevius.5ch.net/test/read.cgi/tech/1723861080/335
336: デフォルトの名無しさん [sage] 2025/07/26(土) 08:13:11.69 ID:PF0bui/v >>335 うむ、意図が分からん 「斉」は独立コ ードも与え、IVDにも登録、 「葛」は独立コー ドなし、IVDには登録、のようだから、仕様作ったやつが馬鹿だな 実装には結局両対応が必要となり、発注価格には1000万程度の上乗せが各社で必要となる 無能が仕様を作るとこういった糞仕様による目に見えづらい税金が発生するから、 仕様は最初にガッツリ決めようぜというのが欧米流だが、相変わらず日本はこの辺糞だな (大方やってるうちに足りなくなって途中で方針変更だろうが、これをやられると悲惨なことになる) > ソースが異なれば完全に同じ字形でも異なる IVS が与えられる(こともある) 検索でヒットする必要がなく、たまたま同じフォントで見た目が同じなだけだから、 プログラム側には全く問題ないだろうさ ただ、入力側が正しく入力できるかは大問題だろうけどさ 単一の文字コー ドを目指すかぎり、字体のみならず、コードの割り当て方の方言も内包することになるわけだな unicodeのバージョン管理って、完全上位互換?それとも後方互換切り捨て? (例:16準拠の場合、15を完全に満たすのか、そうでないのか) C#のように上手く古い仕様を廃止していかないと、確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) http://mevius.5ch.net/test/read.cgi/tech/1723861080/336
337: デフォルトの名無しさん [sage] 2025/07/26(土) 12:33:33.50 ID:JK5RKkw3 >>336 最近の仕様だけ見たら混乱するよな − もともとは同じ文字の別字形については昔の資産(unicode が作られるより前の20世紀の文字コード)にある文字だけ独立したコードポイントが割り当てられる方針だった − その後の他の字形も使いたい、実際に使ってる現場があるという要望に答えるために IVS が整備された − でもある文字と別の文字の字形が同じかどうかをフォント抜きで確実に判別する手段がないので字体表をそのまま IVD として登録していく方針にした − 中国政府が「 IVD とか知るか、独立したコードポイント割り当ててくれないんなら、自分たちで勝手に割り当ててオレオレ unicode の利用を中国国内では強制することにするがよろしいか?」 と言い出した − unicode 側が折れて漢字に関しては中国が要望してきた分に関してはIVDじゃなくて今後も全部に独立コードポイントが割り当てられることになった − 甲骨文字は漢字じゃないので独立コードポイントよこせって中国が言ってきたので漢字とは別に割り当てる予定 http://mevius.5ch.net/test/read.cgi/tech/1723861080/337
338: デフォルトの名無しさん [sage] 2025/07/26(土) 13:22:34.55 ID:IhScHI/D >>337 日本側の状況はさもありなん 全自治体の異体字をカバーする為にはIVS/IVDしかないので、最初からここを目指せればベストだったが 中国側の言い分は正直分からん、というか連中は日本政府以上に馬鹿だな 検索考えたらIVS/IVD方式の方が独立コード方式より断然いいのに とはいえ状況知らんが、簡体/繁体もある意味異体字だから、最早どうしようもないのかもしれんが > オレオレ unicode の利用を中国国内では強制することにする それは中国規格なので勝手にしろでいいと思うが > unicode 側が折れて となるのは、unicode陣営は統一コードの夢を見続けている、ということか なら、日本政府が、どうにもならないからやっぱ止めて新規格作ります、とか言いだしたら、(見る限りこの必要はないと思うが) 非関税障壁ガーで、足抜けは許さないコードヤクザになるわけだな まあ、検索考えたら独立コードになってるのも全部IVS/IVD方式に寄せた方がいい 現実的には入力後に独立コード→IVS/IVDに変換してDB登録すれば実害はあまりない 可能であればさっさと独立コードになってる物を仕様から落とすべきだが、これは難しいのだろうね http://mevius.5ch.net/test/read.cgi/tech/1723861080/338
339: デフォルトの名無しさん [sage] 2025/07/27(日) 09:27:25.30 ID:y0cxqRG2 >>328 >PDFはPostScriptがベースなんだけど、これは元々プリンタ出力のために設計されたもの >後は紙に印刷するだけって状態のデータだから文字コードなんて概念はない これはひどい http://mevius.5ch.net/test/read.cgi/tech/1723861080/339
340: デフォルトの名無しさん [sage] 2025/07/27(日) 09:52:00.68 ID:s52NuiMb >>339 酷くはない その当時はそれでも素晴らしかったから普及した そして実際、unicode以前は完全に機能していたわけだし どちらかというとunicodeが既存技術に対してかなり異端で、 当然アプリは別対応が求められるが、それが適切に為されていない場合、誤動作してるだけ Adobe謹製環境では動作してるのなら、Adobe側がこれ以上できることはない http://mevius.5ch.net/test/read.cgi/tech/1723861080/340
341: デフォルトの名無しさん [] 2025/07/27(日) 10:08:59.26 ID:4jy4lfp7 >>336 単純な例で カ と 力 だな こんなの一緒にされたら困る http://mevius.5ch.net/test/read.cgi/tech/1723861080/341
342: デフォルトの名無しさん [sage] 2025/07/27(日) 10:52:09.39 ID:s52NuiMb >>341 ソース違いで自体が同じ例か? カと力は、何か変だと気づく程度には字形も微妙に違い、怪しい中華の説明書で間違って使われる程度だろ 問題になるのは全角チルダと波ダッシュとか、あと伸ばし棒も何種類かあって、 これらは日本人でも割とデタラメに使っているので、検索に引っかからなくなって困る だから、unicodeのCJK統合漢字=見た目が同じなら同じ文字、は、 検索の結果がユーザーにも予期出来る、という意味では正しい思想で、 逆に、同じ字体にも違うコードを割り付け、『ユーザーが正しくそれらを使い分けられない場合』、どうにもならなくなる この辺の思想が、unicodeは徹底出来ていない http://mevius.5ch.net/test/read.cgi/tech/1723861080/342
343: デフォルトの名無しさん [sage] 2025/07/27(日) 15:00:47.82 ID:xJMx5cyL >>340 そうじゃない PostScriptと当時のフォントの詳細をほとんど知らないだろ? だから妄想で適当なことを書く、酷いのはお前だ ってこのぐらい書けばわかるんかな http://mevius.5ch.net/test/read.cgi/tech/1723861080/343
344: デフォルトの名無しさん [sage] 2025/07/27(日) 15:43:44.47 ID:s52NuiMb >>343 PostScript以前はプリンタによって出力結果が異なっていた為、 ファイルを渡しても印刷結果が異なる事が普通だった (だから厳密にやるには紙でやりとりするしかなかった) これに対し、PostScriptだとどのプリンタでも見た目の出力結果が同じ為、 あっという間にデファクトスタンダードをとった PostScriptはベジエなフォントをプリンタでラスタライズする だからフォントを埋め込めば、同じ見た目の出力になる 以前のプリンタは、プリンタ内蔵のビットマップフォントを印刷してたか、 PCから送られてくるラスタデータを印刷してたかなので、環境によって印刷結果が異なっていた (なおその後PostScriptが若干落ち目なのは、特許料金が高いのと、 プリンタ上で処理する仕組み上、プリンタ側にそこそこのCPUが必要となり、プリンタ代が高くなるから) PDFはPostScriptをバイナリ化したものなので、基本思想はPostScriptから引き継いでいる 当時は(今もだが)WordもExcelも有料であり、その他のソフトも、全員が確実に持っている物はなかった AdobeはPDFの生成は有料だが、開くだけなら無料(AcrobatReaderは無料)という方針で、 あらゆる人に対して確実に読める環境を提示した為、PDFもあっという間に普及した MSがWord/Excelのリーダーを無料で提供したのはその後 俺が知ってる概略はこんな所だ PostScriptも、PDFも、当時としては素晴らしかったし、完全に機能してたよ (今でも十分素晴らしいとも思うが) ぼくはおまえよりしってるんだ!!!とか要らんから、最初から知ってる事書けばいいと思うけどね はいどうぞ http://mevius.5ch.net/test/read.cgi/tech/1723861080/344
345: デフォルトの名無しさん [] 2025/07/27(日) 16:00:29.88 ID:IiX+k+fy >PDFはPostScriptをバイナリ化したもの doubt http://mevius.5ch.net/test/read.cgi/tech/1723861080/345
346: デフォルトの名無しさん [sage] 2025/07/27(日) 16:39:24.93 ID:gwhcenFf PSはプログラム言語でPDFは描画データ 門外漢のオレの理解はここまで http://mevius.5ch.net/test/read.cgi/tech/1723861080/346
347: デフォルトの名無しさん [sage] 2025/07/27(日) 16:40:00.92 ID:s52NuiMb >>345 ああ確かに、asciiと言った方が近いようだな ただそんな関係ない所ではなく、本筋の、 > PostScriptと当時のフォントの詳細 に(自称)詳しい人から見て > 酷い と考える根拠を述べよ、だな 俺は、PostScriptもPDFも素晴らしかったから普及した、だから全く酷くない、と考える根拠を344で述べた 実際これで現在も機能してるんだから、文字コードの概念はPostScriptとPDFには不要だったという証明になってるし unicodeが色々おかしくしただけだよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/347
348: デフォルトの名無しさん [sage] 2025/07/28(月) 09:30:10.58 ID:BMbzFeOA https://www.adobe.com/jp/creativecloud/file-types/image/vector/ps-file.html PostScriptとPDFの違いは何ですか? PDFは、PSファイルの後継形式で、webと印刷の両方で最も広くサポートされているもののひとつです。ただし、PDFは表示形式であり、簡単には編集できませんが、PostScriptはプリンター制御言語であり、そのコード内でデザイン要件を伝達する機能があるため、印刷の可能性が広がります。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/348
349: デフォルトの名無しさん [sage] 2025/07/28(月) 11:28:12.87 ID:2xoiUnVU postscript は紙に印刷する専用なので検索とかコピー・ペーストとかは不要だが PDF はディスプレイ表示を前提でそれらの機能がある。初期の PDF の仕様決める時に検索やコピペの国際化についての考慮が足りてなかった unicode が存在しなくても国際化が必要になったら同じ問題が起きて、PDF仕様の拡張が必要になってた 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ 直接的には文字コードの問題ではない http://mevius.5ch.net/test/read.cgi/tech/1723861080/349
350: デフォルトの名無しさん [] 2025/07/28(月) 13:24:28.88 ID:f/ONtylv ワニ□クリップも同じか http://mevius.5ch.net/test/read.cgi/tech/1723861080/350
351: デフォルトの名無しさん [sage] 2025/07/29(火) 12:35:56.91 ID:kq5k6q77 ちゃんと知らん奴に限って総括するような話をしたがるが、悲しいかな理解が 浅いので全然正しく総括できてないあるある これは例の何ちゃら効果の一種かもしれんね http://mevius.5ch.net/test/read.cgi/tech/1723861080/351
352: デフォルトの名無しさん [sage] 2025/07/29(火) 13:59:09.33 ID:3y9fqZXC 詳しく知らないと総括しかできない http://mevius.5ch.net/test/read.cgi/tech/1723861080/352
353: デフォルトの名無しさん [sage] 2025/07/29(火) 14:07:42.49 ID:OFHwVEwi WebでもHTMLのimgで例えばブランドロゴを画像表示したときに alt属性がなければテキストとして得られないがalt属性があればテキストとしても得られる そういう対応をきちんとするか否かでテキスト文字としてもコピペできるかどうか道が分かれる http://mevius.5ch.net/test/read.cgi/tech/1723861080/353
354: デフォルトの名無しさん [sage] 2025/07/29(火) 14:44:03.99 ID:GBwxra7f >>353 alt に対応してないメイン・ブラウザとかはほぼ存在しないんだが… PDF はなぁ… http://mevius.5ch.net/test/read.cgi/tech/1723861080/354
355: デフォルトの名無しさん [sage] 2025/07/29(火) 19:25:27.31 ID:8QmNUBAP HTMLは画像表示できずにテキスト表示のみの環境でも読めるように そして目の不自由な人たちもテキストの音声読み上げで読めるように HTMLコンテンツを作る側もブラウザ側両方が対応してきた いわゆるアクセスビリティ対応が必須で常識 PDFはその常識を欠いた者が対応を欠いたソフトを用いるとテキスト読み出し出来なくなる http://mevius.5ch.net/test/read.cgi/tech/1723861080/355
356: デフォルトの名無しさん [sage] 2025/07/29(火) 22:35:36.96 ID:pHNfVPjg altなんて実際のところ機能してないだろ 隠しメッセージに使うとかおもちゃになってる http://mevius.5ch.net/test/read.cgi/tech/1723861080/356
357: デフォルトの名無しさん [sage] 2025/07/31(木) 07:07:13.35 ID:1FIA24UI >>343 結局、何も言えないのか? だからゆとりZは死ねなんだな 俺は5chにいるゆとりZは全員殺処分が妥当だと考えてる 理由は長いが以下に書き散らしたので興味あれば読んでみてくれ https://mevius.5ch.net/test/read.cgi/tech/1739527246/529- お前らはお互いに足を引っ張り合ってるので成長出来てない 今回も、無駄に喧嘩を売ってきて、正面から受けてもだんまりとか、 だから議論もろくに出来ず、幼稚なままだ そもそも俺はPostScriptやフォントの事に一言も触れてないのに、どうして > PostScriptと当時のフォントの詳細をほとんど知らないだろ? > だから妄想で適当なことを書く、酷いのはお前だ になったのかさっぱり分からない ゆとりZは妄想で適当なことを書く、酷い連中だから 存在するだけで邪魔だし、議論も紛糾するだけなので、殺処分が妥当 お前も死ね ってこのぐらい書けばわかるんかな http://mevius.5ch.net/test/read.cgi/tech/1723861080/357
358: デフォルトの名無しさん [sage] 2025/07/31(木) 07:09:00.90 ID:1FIA24UI >>349 > 問題は単にPDFの仕様が膨らみ過ぎて全部実装するのが困難になってて、サブセットでしか実装していない不十分なアプリが氾濫し過ぎてるってだけ > 直接的には文字コードの問題ではない その通りだが、お前も感づいているとおり、間接的にはunicodeの問題だ 実際、フォントと文字コードが1:1対応してたSJIS等だと問題にならなかったのも事実だろ つまりunicodeが > 異端 (>>340:俺) で、 > 確実にどこかで破綻する気はする(か、そもそも実装してもらえないか) (>>336:俺) に現時点でなってるのも事実ではないか PDFに関してはパチもん使わずAdobe純正品使え、だろうが、 unicodeも十分複雑すぎる仕様だから、同様の状況(=フル実装されてないのが氾濫)になってる気はするが (だから足抜けは許さねえ!!!なコードヤクザになるのも納得) そもそもサロゲートペアも初段階で必須だと判断出来たはず (だからutf-16はナンセンスだとも) > https://skawa68.com/2024/07/31/post-81230/ 大漢和辞典で5万+、康熙字典で4.7万だから、ギリ行けると判断したのかもしれんが、 常識的には、いや無理でしょ、余裕無さすぎ、だし (よく知らんがハングルも1.2万程あるようだし、参考: https://tagengo-gakushuu.study-tips.info/app/web-form/korean/unicode_all_with_ancient_hangul/doc/all_hangul_chars_unicode.pdf) あとふと思ったが、IVS/IVD方式はもしかしてutf-32でも8バイトか? なら中国が独立コードに拘る理由もありえる、というか、 これだと事実上utf-32も捨てる事になる まあほぼutf-8なので今更どうでもいいのも事実だが http://mevius.5ch.net/test/read.cgi/tech/1723861080/358
359: デフォルトの名無しさん [sage] 2025/07/31(木) 07:55:06.21 ID:1FIA24UI 思うにunicodeは、文字化けのない世界を提示したのは素晴らしいにしても、 一つでやろうとするが故、仕様が包括的になるのは避けられず、破綻に向かっている気はする 全ての言語を話せる人が居ない以上、 IVS/IVDなんて欧米連中からすれば意味不明で、逆に欧米側の仕様は俺らには意味不明になる だから実装側は誰も仕様の妥当性を判断出来ず、ただひたすらに仕様に従うしかない これ自体は自治体向けや会計ソフト等、一般プログラマの領域外の分野では普通の事で、 だから橋渡しとして両方が分かる人を入れ、仕様でガチガチに固定するわけだが、 実際破綻しまくっているのも、元々無理があるからだ つまり、例のブランコ、 「顧客が本当に必要だったもの」を解決出来る人が、本質的に存在しない (会計等の分野なら、会計知ってる奴にプログラミングを教える、等の解があるが、 全ての言語を話せる人が存在しない以上、unicodeにはこの解が存在しない) まあIT版バベルの塔であり、どこまで行けるかという話だが 実際、自分には関係ない機能なんて、実装するモチベわかないものだし (大体において実際困ってるから動くのがほぼ全員で、困ってなければ誰も動かない この意味では、unicodeがフル実装される未来なんて多分存在しない) http://mevius.5ch.net/test/read.cgi/tech/1723861080/359
360: デフォルトの名無しさん [sage] 2025/07/31(木) 10:38:37.81 ID:Ztum1zAi >>359 気付いてないようだが unicode 以前の SJIS とかの時代から PDF では使うフォントによっては同じ問題が起きてた 変なフォント使うやつ少ないし、同じ国の中の文字の揺れなので気づくやつが少なかったのが、国際化の影響で別の国の文字だの部首素片だのに変換されて目立つようになっただけ PDF は文字コード表にない文字(フォント)まで扱えることを知ってればコピペ等で化ける(別の字への置き換え)は当然の仕様と知れる http://mevius.5ch.net/test/read.cgi/tech/1723861080/360
361: デフォルトの名無しさん [sage] 2025/07/31(木) 12:22:57.59 ID:1FIA24UI >>360 Windowsの標準のフォントしか使ってないので、遭遇した事もないし、聞いた事もないが (ただ、当時はそうなっても「文字化け」としてスルーされてたとも思うが unicodeしか使った事無いゆとり以降は、文字化け=バグ、とか言い出すから別の問題はあるにしても、 文字化けについて厳しくなってるから話題として出てきてるだけかもしれん) しかし結局、文字コード->グリフで多対一写像があり、戻す時にどちらに戻すべきか分からなくなるのが問題なら、 (SJISな当時に)多対一写像がありまくるのはただの糞フォントだとも思うが 平仮名/片仮名は漢字の簡易形であり、当然似たような字形はあるので、 ほぼ全部のフォントでそれらを何となく区別出来るように大きさを変えてあるのが常だし で、unicodeは多対一写像が仕様だから、 1:1写像な以前の世界向けに作られた物が当然誤動作してるだけだろ (さっさと対応しろよ、なのは勿論だが) して、「酷い」と考える奴は結局、後知恵でもいいからどうすべきだったと考えるのだ? 文字コードを埋め込む方式は、見た目同じだが検索に引っかからない、いわゆる正規化の問題が発生してしまう 同じグリフ->同じ文字コードなら、この問題は存在しない だから「検索」と「コピペ」のどちら向けの仕様にするか、であり、PDFが > 検索ができないのは不便だからってんで (>>328) なら、そりゃ検索向けの仕様にするよ (現在のPDFが検索時に正規化して対応してるとしても、 同じグリフに複数の文字コードを与えている糞フォントな場合、 画面なぞって検索したときに、見た目同じなのに引っかからないケースが発生する 同じグリフなら同じコードだ!の旧方式なら、これはない) http://mevius.5ch.net/test/read.cgi/tech/1723861080/361
362: デフォルトの名無しさん [sage] 2025/07/31(木) 12:57:26.17 ID:lEUWnalG 長文は読み手の負担になるし 希薄化して本当に書きたいことも伝わらなくなるよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/362
363: デフォルトの名無しさん [sage] 2025/07/31(木) 13:09:41.59 ID:Ztum1zAi >>361 フォントが1種類しか使われてないと思い込んでるのがお前の妄想の原因なんだよ アラビア語のフォントが一部に使われてるPDFをSJISのテキストにコピペしたらどうなるか想像つくだろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/363
364: デフォルトの名無しさん [] 2025/07/31(木) 14:31:26.32 ID:hwCClOrU ∃〆レば良いんょ http://mevius.5ch.net/test/read.cgi/tech/1723861080/364
365: デフォルトの名無しさん [sage] 2025/07/31(木) 14:51:39.49 ID:1FIA24UI >>363 それはSJISの範囲を超えているから当然誤動作する (俺は知らんがwiki等読む限り)仕様としてはエスケープシーケンスで各国語を切り替えられたらしいが、 そんな事が必要な奴は90年代でも既にunicodeを使ってたので、 SJISに貼り付けて誤動作ガーとか言ってるお前が狂ってる 資本主義=商用ベースでやる以上、訳の分からないマイナーな使い方は無視されて当然 (良い悪いではなく、そうなる構造) http://mevius.5ch.net/test/read.cgi/tech/1723861080/365
366: デフォルトの名無しさん [sage] 2025/07/31(木) 15:58:32.58 ID:Ztum1zAi >>365 基本的な部分が分かってないな ・全ての文字(フォント)が SJIS と1対1でマップされている保証はない というのが ・全ての文字(フォント)が Unicode と1対1でマップされている保証はない というのに変わっただけで unicode など文字コードの問題だと思ってるのがお前の勘違い、文字コードで解決する問題ではない http://mevius.5ch.net/test/read.cgi/tech/1723861080/366
367: デフォルトの名無しさん [sage] 2025/07/31(木) 17:19:12.01 ID:T4u83bYv 対象文書に閉じた形式(情報量が削減されたグリフオリエンテッドな形式)で表現されている以上、どうしようもない http://mevius.5ch.net/test/read.cgi/tech/1723861080/367
368: デフォルトの名無しさん [sage] 2025/07/31(木) 22:07:10.30 ID:1FIA24UI >>366 > ・全ての文字(フォント)が SJIS と1対1でマップされている保証はない それはそうだが、実際はされてるから問題にならなかったんだろ SJISで正規化問題なんて聞いた事無いし unicodeでは色々な所で多対一がモロ仕様だから顕在化しただけ とはいえこれ以上は平行線だろうし終わりでいい 合意とる必要もないし 俺は、 ・見た目全く同じなのに検索に引っかからない事があるunicode仕様 ・コピペ時に見た目は全く同じな別のコードに変わる事があるPDF仕様 なら、PDFには後者の方が断然いいと考える PDFに対して検索はよくやるが、コピペはあまりしないし (ただ、ファイル容量なんてどうでもいい昨今なら、両方入れとけだろうし、 それが316リンク先内の/ActualTextだろうから、 俺らがやるべきは、「/ActualTextを出力しないPDF作成アプリはゴミ」と吹聴する事だろうよ) http://mevius.5ch.net/test/read.cgi/tech/1723861080/368
369: デフォルトの名無しさん [sage] 2025/07/31(木) 22:46:51.26 ID:Ztum1zAi >>368 昔から発生してた、特に字体の多いプロフォント使った印刷用のPDFとか外国語関係とかだと当たり前に起きてた、お前の経験が浅いだけ 単にSJISとかしょっちゅう文字化けするんで、文字化けしても特段話題にならなかっただけ、検索とかコピペ失敗しても単に機種依存文字wって言ってすましてた unicode が普及したことで環境依存って思わなくなったのと外国の文字が含まれてるフォントを常用するようになって話題になった http://mevius.5ch.net/test/read.cgi/tech/1723861080/369
370: デフォルトの名無しさん [sage] 2025/07/31(木) 22:58:34.81 ID:1FIA24UI >>369 > 検索とかコピペ失敗しても それはお前の理解が間違ってて、PDF内では検索失敗しないのがPDFの仕様だ まあお前みたいなタイプは沢山居るけども http://mevius.5ch.net/test/read.cgi/tech/1723861080/370
371: デフォルトの名無しさん [sage] 2025/07/31(木) 23:10:14.79 ID:1FIA24UI >>369 もしかして検索はPDFではなくSJISにかかってた? だとしたら、俺はSJISで「見た目同じだが引っかからない」検索失敗は、一度も経験した事がない 経験不足なのか、SJISにはなくunicodeで発生した問題なのかについては、俺は後者だと考えてる http://mevius.5ch.net/test/read.cgi/tech/1723861080/371
372: デフォルトの名無しさん [sage] 2025/08/01(金) 01:22:53.13 ID:S37h8L9Z アホ過ぎる「検索失敗しないのがPDFの仕様だ」とか小学生レベル 失敗するのは人間。 見えてる文字で検索したつもりでも内部的には別の文字になってるので検索に引掛からなかったり、その逆で見た目が全然違う文字が検索でひっかかたりする。原因はコピペの失敗と同じ 。 http://mevius.5ch.net/test/read.cgi/tech/1723861080/372
373: デフォルトの名無しさん [sage] 2025/08/01(金) 07:02:06.81 ID:7kydH/9J >>372 グリフが完全に同じ時は同じ文字扱いなのがPDFで、 グリフが完全に同じでも違う文字の時があるのがunicodeだぞ とはいえ、お前には理解出来ないことは理解したので終わりでいいが http://mevius.5ch.net/test/read.cgi/tech/1723861080/373
374: デフォルトの名無しさん [sage] 2025/08/01(金) 07:18:07.89 ID:ckQfX7Hr だれかTeXで例えて http://mevius.5ch.net/test/read.cgi/tech/1723861080/374
375: デフォルトの名無しさん [sage] 2025/08/01(金) 08:03:21.63 ID:S37h8L9Z >>373 SJIS の話してんのに unicode 関係ないだろ お前は PDF のこと全く分かっってないだろ PDF はお前が思ってるほど単純なしくみじゃないぞ CMap って聞いたことあるか? そのあたりから内部構造勉強してみ /ActualText どころか ToUnicode CMap すらない PDF だって普通にあるんだよ(unicode 以前のフォントが unicode 対応してる訳ないだろ PDFの内部の文字の記録は unicode ではなくてグリフID というフォント内の格納番号なんだよ、一部の日中韓フォント使った場合は CID というまた別のコードで記載されてることもある http://mevius.5ch.net/test/read.cgi/tech/1723861080/375
376: デフォルトの名無しさん [sage] 2025/08/01(金) 08:41:40.71 ID:wR/jTASQ >>375 その辺は316のリンク先読んだ程度しか知らないが、 それでも普通にプログラミング経験があれば理解出来る物なんだよ グリフID->文字コードの変換表は、普通に実装すれば「その文書で最初にそのグリフを使った文字コード」が格納される だから、「違う文字コードだが同じグリフ」が無い場合、この程度の仕様/実装でも検索もコピペも問題ない 実際、SJISでWindowsデフォのフォントを使ってる限り、問題なかった ところがunicodeでは、「違う文字コードだが同じグリフ」が普通にあるので、 コピペでは「同じグリフの違う文字コード」に変更(縮退)されてしまう事が多発する なお、PDF内では「同じグリフは同じ文字コード」に縮退されているので、検索では100%ヒットする というか、ループしてるしこの辺でいいか? ここでは知識(知れば済む事)を与える事は出来ても、 理解(考えて納得する事)を与える事は出来ない いろんな言い方をする事は出来るけども、既にそうしてきてるし、 これで理解出来ないのはお前の知能の問題で、ここで一朝一夕に修正するのは無理だ お前は知識=頭がいいと考える文系馬鹿に近い存在のようだが、それは間違いだ 知識はちゃんと理解してナンボであってね プログラミングが多少でも出来る奴なら、上記の俺の説明で、ああ、はいはい程度には理解出来ると思うし http://mevius.5ch.net/test/read.cgi/tech/1723861080/376
377: デフォルトの名無しさん [sage] 2025/08/01(金) 09:32:26.46 ID:S37h8L9Z お前は一回 PDF 検索を実装してみろ、失敗しない検索が実装できるか分かるぞ 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか? http://mevius.5ch.net/test/read.cgi/tech/1723861080/377
378: デフォルトの名無しさん [sage] 2025/08/01(金) 22:01:15.19 ID:wR/jTASQ >>377 > 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか? お前のプログラミング能力はゼロで、文字列検索では具体的に何をしてるのか全く知らない事は分かった ただこれはプログラマには常識過ぎるので、316のリンク先やこのスレ内でも、誰もわざわざ言及していない だからお前は付いてこれないままだ だが、それ以前に、お前は文字列とは何なのかも知らなそうだが そもそも>>317もまるで理解できてないだろ 理解したければ、プログラミングのイロハから勉強するんだね 多分お前はPDFのヘビーユーザー、おそらくはイラレ使い、てなところか お前が文字コードの問題まで理解できることは、短期的にはない。ベースの知識が足り無すぎる そもそも何故お前がこの板にいるのかがかなり謎だが PDFに不満があるのなら、「出力はAdobe純正ソフトで、マッピング情報等は全部含めて、ファイルは大きくなってもいいから」と依頼すれば、 お前の不満に対しての最適解にはなってるだろうさ http://mevius.5ch.net/test/read.cgi/tech/1723861080/378
379: デフォルトの名無しさん [sage] 2025/08/01(金) 23:52:35.21 ID:S37h8L9Z >>378 俺は実際にPDFの検索組んだことあるんだが、お前のその妄想はどっから来たのか知りたい http://mevius.5ch.net/test/read.cgi/tech/1723861080/379
380: デフォルトの名無しさん [sage] 2025/08/02(土) 07:47:18.20 ID:xIFE1Go+ >>379 文盲か?最初の行にわざわざモロクソ書いただろ > 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか? (>>377) ここからだよ 普通はたった2行のレスをわざわざ引用するのは冗長すぎるので文句言われるが、 それでもお前にはどちらの行か分かるようにしたほうが良さそうなので敢えて引用した 5chのコミュ障共はこの辺の配慮なんて汲めないから、 ひたすら「俺にとっては冗長だ」という基準で長い長い言うわけだが、 それでも馬鹿なお前に合わせて書いてるんだから、ちゃんと読め というか、逆に言うと、そんな事を言うお前は、 > 検索文字列がフォント名とグリフIDのセットで降ってくる 場合に、検索出来るようになると思ってるわけだろ そりゃお前の組んだプログラムなんて動作しないさ 初心者あるあるだが、 ・間違った問題を、間違った方法で解決しようとして、余計におかしくなる ケースに該当する ただ正直、このレベルから相手にする気にはならんし、勝手によろしくやってくれだが http://mevius.5ch.net/test/read.cgi/tech/1723861080/380
381: デフォルトの名無しさん [sage] 2025/08/02(土) 07:48:17.42 ID:xIFE1Go+ 結局の所、>>317はよく書けていて、その通りだが、別の言い方をすると、 PDFの仕様は各文字が別々の字形(=複数の文字コードが同じグリフを使うことがない) の時に機能するように出来ていた SJIS時代はだいたいこれが成立してたので、目立った問題はなかった unicodeだとまるで動かなくなったので、新仕様を整備したが、対応してないPDFアプリは誤動作しまくり で、これが上位の状況説明で、下位の詳細理由説明が317になってる 上位の説明はお前のような文系馬鹿でも分かるはずだが、下位の説明では、 ・元々どのように動作していて、←これ(前提部分)が省略されてる ・〇〇すべき所 ・△△になってるから、上手く動かない の、後半部分しか通常は与えられない。全員が知ってる前提部分なんて無駄でしかないから だから、前提部分の知識が全く無いお前には理解できない。これがお前が317以降空回りしてる理由 趣旨は異なるけど、例のバッテリー女も、同様の前提条件 ・車のエンジンをかける際にバッテリーが必要なこと(=セルモーターを回してエンジンをかけること) を知らないからそうなるのであって、バッテリー女がクソ女なのは事実としても、 「バッテリーが上がってるとエンジンもかからないんだ。バッテリーなら15分ほどで修理できるから、試してみてくんない?」 と一言言えば回避できるんだが、これをやりたいか、ここまでやる必要があると考えるかは、人それぞれだね ただ、会話する気があるのなら、相手が馬鹿と分かったのなら、馬鹿にも通じるように言うべきではある そして俺は一応それをやってるつもりなのだから、ちゃんと読んでくれ http://mevius.5ch.net/test/read.cgi/tech/1723861080/381
382: デフォルトの名無しさん [sage] 2025/08/02(土) 08:50:01.67 ID:jagzAmj3 糞長文書いてる暇があったらプログラム書けよ そうすればすぐに unicode 関係ない 絶対に失敗しない検索も作れないってわかるぞ そもそも暗号化されてもいないのに一切検索できないPDFをはくツールすらあるぞ http://mevius.5ch.net/test/read.cgi/tech/1723861080/382
383: デフォルトの名無しさん [sage] 2025/08/02(土) 09:03:03.63 ID:tv/q+z7t >>382 それも初心者あるあるだな 賢いお前にはこれで十分通じるはず(キリッ http://mevius.5ch.net/test/read.cgi/tech/1723861080/383
384: デフォルトの名無しさん [sage] 2025/08/02(土) 10:53:41.96 ID:jagzAmj3 日本語フォントとかだとグリフID の順がSJISやUnicodeと全く一致してないということを知らずに吹いてるんだろうな(SJIS時代は並び順が一致してたとでも妄想してるのかな? 検索文字列がSJISとかUnicodeで与えられた時にそれをどうやってグリフIDとマッチングされるか具体的な方法も知らないんだろうな グリフIDと文字コードの対応がPDFに内蔵されてない場合に検索どうするか検討もつかないんだろうな 中には文字をグリフIDですらなくてアウトラインの図形データとして格納してるPDFだってあるということも知らないんだろうな http://mevius.5ch.net/test/read.cgi/tech/1723861080/384
385: デフォルトの名無しさん [sage] 2025/08/02(土) 11:23:02.89 ID:xIFE1Go+ >>384 > 順が なるほどやはりお前は分かってない > 検索文字列がSJISとかUnicodeで与えられた時 実はこれには問題がある。だから注つけるかとも考えたが、 > 画面なぞって (>>361) と既に言及してるし、どのみちunicodeだと手打ちでは無理で、画面なぞるしかない(後述)ので、まあいいかで省略した 賢いお前らなら当然気づくから、いちいち無駄ツッコミはないはずだし > グリフIDと文字コードの対応がPDFに内蔵されてない場合 それは初(ry > 中には文字を それも初(ry 本質的には、unicodeの問題がPDFに輸出されてしまってるんだよ 仮にPDFがhtmlのようにunicode文字コードで構成されてても、正規化の問題は発生するし、 316の例みたいに同じグリフを複数のコードが使用してる場合、「手打ちでの」検索はヒットしないことがあり得る PDFの仕様だと、「画面なぞれば」100%ヒットするだけまだましで、unicodeはこれすら保証できない http://mevius.5ch.net/test/read.cgi/tech/1723861080/385
386: デフォルトの名無しさん [sage] 2025/08/02(土) 11:47:17.46 ID:jagzAmj3 >>385 結局何も分かってなかったのね? 既存のPDFビュワーの画面をなぞるのはコピペの機能だぞ 一旦グリフIDから文字コードに変換される、そして検索窓等に文字コードとして入力される、コピペが化けるのと同じ問題が起きる それともお前がSJIS時代にグリフIDのままで検索できるビュワー書いたのか? 本当に過去に存在してたのなら見せてくれ、ごめんなさいして今から書いても良いぞ 作るのなら フォントごとにグリフIDが異なるんだが、まずは複数のフォントが使われてる時にあるフォントの「あ」の文字を選択したときに、別のフォントの「あ」の文字のグリフIDにどうやったら変換できるか考えてみろ コードポイントによってはグリフがなくて表示されないやつすらある(単純な例ならスペースとか改行、もっと複雑なのが一杯ある)、 合字とかで複数の文字からなる文字列に1つだけのグリフIDが割り当てられていることもある(レパートリはフォントごとに違う)、 そういう時はどうする考えてみろ、PDFについて無知過ぎ http://mevius.5ch.net/test/read.cgi/tech/1723861080/386
387: デフォルトの名無しさん [sage] 2025/08/02(土) 12:26:25.37 ID:xIFE1Go+ >>386 相変わらず分かってねえな > コピペが化けるのと同じ問題が起きる だからいいんだぞ 両方ともPDF内から生成された物だからこそ、確実に一致する > PDFについて無知過ぎ PDF博士なお前はマウントポイントなこの点にこだわるようだが、 既に言った通り、本質的にはPDFではなくunicodeの問題だ 実際、unicodeなhtmlでも「見た目同じだけど検索に引っかからない」ケースが普通にあるだろ コピペに関しては、文字コードを保存してないのが問題で、既に仕様は追加済み、さっさと対応しろだが、 検索に関しては、元々unicodeは検索がまともに出来ない仕様で、それがPDFにも輸出されただけ 例えば、316で3つの「長」が同じグリフIDに紐づけされるのは、 当然その文書のそのフォントでは3つの「長」が同じグリフを使うからであり、見た目が同じだから 同じ文書をhtmlで表示させたら、当然画面上の見た目は同じ「長」になるが、 文字コードが3つのどれかは見た目では分からない だから「手打ちで」「長」と打ち込んでも、当たらない時がある これ、PDF全く関係ないだろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/387
388: デフォルトの名無しさん [sage] 2025/08/02(土) 15:48:00.24 ID:MvhBDlJ2 馬鹿はコード書けって言われると発狂するから分かりやすいね http://mevius.5ch.net/test/read.cgi/tech/1723861080/388
389: デフォルトの名無しさん [sage] 2025/08/02(土) 18:36:31.34 ID:jagzAmj3 きっとここがプログラム技術板だってことにすら気付いていないんだろうな プログラム書けば良いのに http://mevius.5ch.net/test/read.cgi/tech/1723861080/389
390: デフォルトの名無しさん [sage] 2025/08/02(土) 19:21:29.66 ID:dbEqXJf9 ID:xIFE1Go+がニワカ知識だったでOK? http://mevius.5ch.net/test/read.cgi/tech/1723861080/390
391: デフォルトの名無しさん [sage] 2025/08/04(月) 06:18:28.11 ID:QkMIbgCE さてと PDFの中を覗いてみたけど、/ActualTextという要素がある(場合がある)のね Acrobatなどは検索やコピペのときにこれを参照するのかな? http://mevius.5ch.net/test/read.cgi/tech/1723861080/391
392: デフォルトの名無しさん [sage] 2025/08/04(月) 06:44:34.21 ID:wGHus/El 画像に/actualtextや/altが付いているのでたしかめて見ては? {}内のテキストが入っている Actual Text {T} his is an example of actual text. Alt Text {Je t'aime (French for "I love you")} This image has alt text: Je t'aime (French for "I love you") https://taggedpdf.com/wp-content/uploads/2015/12/Actual-Alt-Expansion-Text.pdf http://mevius.5ch.net/test/read.cgi/tech/1723861080/392
393: デフォルトの名無しさん [sage] 2025/08/04(月) 07:42:52.49 ID:B+SwrOCa Actual Text や Alt Text もそうなんだけど最近の PDF には大きな枠組みで「タグ付き PDF」という機能があって文章の構造化ができる 要はHTMLの段落タグや見出しタグと同じやつで読む順番やその文章内での意味付けや読み方や代替の指定が可能、補足を入れる Expansion Text みたいなのも これによって改行を超えた検索とかリフローっぽいこととか、画像化された文字のテキスト化の指定とかとか色々HTMLっぽく使える (文字コードとは独立した問題) http://mevius.5ch.net/test/read.cgi/tech/1723861080/393
394: デフォルトの名無しさん [sage] 2025/08/04(月) 10:06:23.30 ID:QkMIbgCE >>392 なるほどー。ただこれはどちらかというと /Span の使い方のデモ(濫用)って感じも しかしこれでAcrobatのことが少しわかった感も、どうもです >>393 > ... 文章の構造化ができる >(文字コードとは独立した問題) 異なるコードポイントの文字を構造化することもできますね http://mevius.5ch.net/test/read.cgi/tech/1723861080/394
395: デフォルトの名無しさん [sage] 2025/08/04(月) 12:31:11.59 ID:Dprx6XuC 一部訂正 × コピペに関しては、文字コードを保存してないのが問題で、(>>387) ○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、 PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する 316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、 PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題ないPDFが作成される だから発生条件として、 ・糞フォントで、違う文字コードで同じグリフを使いまくり が必要であり、これを誘発しているのはunicodeの仕様 だからPDFがボロいと言うより、 unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ (なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、 PDF出力アプリがポンコツなのもほぼ間違いない 376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、 単国籍な文書《≒大半のケース》で顕在化するのは防げる) 結論としては、やっぱunicode糞じゃね?と思うが 以前の文字コード:このコードはこう表示される程度の知識で全く問題ない unicode:正しい作法(正規化等)を知らないと色々誤動作する http://mevius.5ch.net/test/read.cgi/tech/1723861080/395
396: デフォルトの名無しさん [sage] 2025/08/04(月) 12:54:11.55 ID:B+SwrOCa >>395 お前、まだあきらめて無かったのか 昔から1対1なんてことはないよ グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる、逆に同じグリフIDでも異なる文字を表現している 何度も言われただろ、理解できない部分を読み飛ばしてるのか? http://mevius.5ch.net/test/read.cgi/tech/1723861080/396
397: デフォルトの名無しさん [sage] 2025/08/04(月) 13:40:26.46 ID:Dprx6XuC >>396 いや、やはりお前は理解出来てない もういいけど (お前が理解出来ない事は理解しているし、お前の頭の悪さについては諦めている) > グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる ここまでは全く問題ないが、 > 逆に同じグリフIDでも異なる文字を表現している これが問題 「単射」と言った方が正しかったが、 俺は使ってきてなかったのと、後で使ってた「1:1」表現に揃えたのが不適切だったようだ ただ、事実は変わらない 当たり前だがゴシックの「あ」と明朝の「あ」は別グリフIDになるが、 この場合にも検索/コピペは昔のPDFの仕様で全く問題なく動作する まあunicodeは色々糞だというのが俺の見解 387の表現だとPDFに主たる問題があるとも読めるので訂正した (unicode以前は問題なく機能していたので) http://mevius.5ch.net/test/read.cgi/tech/1723861080/397
398: デフォルトの名無しさん [sage] 2025/08/04(月) 14:31:23.34 ID:B+SwrOCa >>397 明朝体の「あ」のグリフIDが 325 でゴシック体の「ほ」のグリフIDが同じ 325 ということだってあり得るんだよ 明朝体の「あ」とゴシック体の「あ」は検索したいけど、ゴシック体の「ほ」は検索にひっかかると困る。常識だろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/398
399: デフォルトの名無しさん [sage] 2025/08/04(月) 14:37:31.31 ID:D3iy7z0J >>395 >・糞フォントで、違う文字コードで同じグリフを使いまくり 自分の妄想をベースにAdobeに因縁を付けるのか 最近こういう人が増えている感じで怖い >以前の文字コード:このコードはこう表示される程度の知識で全く問題ない ある 前提の認識が間違っているのでそれをベースにした話も間違い ただの間違いの積み重ね http://mevius.5ch.net/test/read.cgi/tech/1723861080/399
400: デフォルトの名無しさん [sage] 2025/08/04(月) 15:13:22.04 ID:Dprx6XuC >>398 それは初(ry あとちなみに、「1:1」の表現は317から使われてるだろ お前以外の誰も「1:1」表現を気にしてないのは、お前だけが特殊(=非プログラマ)だから まあ方言っちゃ方言だが、この場合の意味は可逆/非可逆であって、写像形式自体を示しているわけではない >>399 > 自分の妄想をベースにAdobeに因縁を付けるのか 俺はAdobeは順当で、unicodeがウンコだとずっと言ってる とはいえ文盲と5chで話をするのは無理なのでもういいが http://mevius.5ch.net/test/read.cgi/tech/1723861080/400
401: デフォルトの名無しさん [sage] 2025/08/04(月) 15:21:55.26 ID:SX/R7tYr >>392-394 Adobe Acrobatで検索もコピペも出来ない/ActualTextの例 http://mevius.5ch.net/test/read.cgi/tech/1723861080/401
402: デフォルトの名無しさん [sage] 2025/08/04(月) 17:34:36.02 ID:B+SwrOCa >>400 だから 317が1対1じゃないって言ってるだろ フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術 それが現在までそのまま引き継がれてる Unicode で始まった話ではない http://mevius.5ch.net/test/read.cgi/tech/1723861080/402
403: デフォルトの名無しさん [sage] 2025/08/04(月) 21:50:35.58 ID:Dprx6XuC >>402 そういう話じゃねえ てかお前も本気で文盲だな 317: 1:1でなら動くシステムに多:1をブッ込んでるから動かない やぞ ただここまで言っても通じないのだから、本件に対し、お前の知能/知識がまるで足りてないんだよ 普通レベルのプログラマなら317で、ああ、そういう事か、で終わるし その後、これをどう評価するか(=PDFが糞か、unicodeが糞か)で揉めるならまだしも、 お前は何故そういう動作になるのか未だに理解出来てない そんなお前が書いたプログラムなんて、何であれ、動くはずもなし しかしマジで無限ループ状態だから、もう止めようぜ 今のお前が理解するのは無理だよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/403
404: デフォルトの名無しさん [sage] 2025/08/04(月) 22:38:19.37 ID:B+SwrOCa >>403 文盲って言われても 317 は俺が言ってる通りの意味で、お前の解釈が間違ってるんだが? http://mevius.5ch.net/test/read.cgi/tech/1723861080/404
405: デフォルトの名無しさん [sage] 2025/08/04(月) 23:12:47.28 ID:n6MSUZI0 で、いつ検索プログラム書いてくれるの? http://mevius.5ch.net/test/read.cgi/tech/1723861080/405
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.023s