文字コード総合スレ part15 (470レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
395: デフォルトの名無しさん [sage] 2025/08/04(月) 12:31:11.59 ID:Dprx6XuC 一部訂正 × コピペに関しては、文字コードを保存してないのが問題で、(>>387) ○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、 PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する 316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、 PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題な
いPDFが作成される だから発生条件として、 ・糞フォントで、違う文字コードで同じグリフを使いまくり が必要であり、これを誘発しているのはunicodeの仕様 だからPDFがボロいと言うより、 unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ (なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、 PDF出力アプリがポンコツなのもほぼ間違いない 376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、 単国籍な文書《≒大半のケ
ース》で顕在化するのは防げる) 結論としては、やっぱunicode糞じゃね?と思うが 以前の文字コード:このコードはこう表示される程度の知識で全く問題ない unicode:正しい作法(正規化等)を知らないと色々誤動作する http://mevius.5ch.net/test/read.cgi/tech/1723861080/395
396: デフォルトの名無しさん [sage] 2025/08/04(月) 12:54:11.55 ID:B+SwrOCa >>395 お前、まだあきらめて無かったのか 昔から1対1なんてことはないよ グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる、逆に同じグリフIDでも異なる文字を表現している 何度も言われただろ、理解できない部分を読み飛ばしてるのか? http://mevius.5ch.net/test/read.cgi/tech/1723861080/396
397: デフォルトの名無しさん [sage] 2025/08/04(月) 13:40:26.46 ID:Dprx6XuC >>396 いや、やはりお前は理解出来てない もういいけど (お前が理解出来ない事は理解しているし、お前の頭の悪さについては諦めている) > グリフIDはフォントごとに異なる、1つのPDFで複数のフォントを使ったら異なるグリフIDになる ここまでは全く問題ないが、 > 逆に同じグリフIDでも異なる文字を表現している これが問題 「単射」と言った方が正しかったが、 俺は使ってきてなかったのと、後で使ってた「1:1」表現に揃えたのが不適切だったようだ ただ
、事実は変わらない 当たり前だがゴシックの「あ」と明朝の「あ」は別グリフIDになるが、 この場合にも検索/コピペは昔のPDFの仕様で全く問題なく動作する まあunicodeは色々糞だというのが俺の見解 387の表現だとPDFに主たる問題があるとも読めるので訂正した (unicode以前は問題なく機能していたので) http://mevius.5ch.net/test/read.cgi/tech/1723861080/397
398: デフォルトの名無しさん [sage] 2025/08/04(月) 14:31:23.34 ID:B+SwrOCa >>397 明朝体の「あ」のグリフIDが 325 でゴシック体の「ほ」のグリフIDが同じ 325 ということだってあり得るんだよ 明朝体の「あ」とゴシック体の「あ」は検索したいけど、ゴシック体の「ほ」は検索にひっかかると困る。常識だろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/398
399: デフォルトの名無しさん [sage] 2025/08/04(月) 14:37:31.31 ID:D3iy7z0J >>395 >・糞フォントで、違う文字コードで同じグリフを使いまくり 自分の妄想をベースにAdobeに因縁を付けるのか 最近こういう人が増えている感じで怖い >以前の文字コード:このコードはこう表示される程度の知識で全く問題ない ある 前提の認識が間違っているのでそれをベースにした話も間違い ただの間違いの積み重ね http://mevius.5ch.net/test/read.cgi/tech/1723861080/399
400: デフォルトの名無しさん [sage] 2025/08/04(月) 15:13:22.04 ID:Dprx6XuC >>398 それは初(ry あとちなみに、「1:1」の表現は317から使われてるだろ お前以外の誰も「1:1」表現を気にしてないのは、お前だけが特殊(=非プログラマ)だから まあ方言っちゃ方言だが、この場合の意味は可逆/非可逆であって、写像形式自体を示しているわけではない >>399 > 自分の妄想をベースにAdobeに因縁を付けるのか 俺はAdobeは順当で、unicodeがウンコだとずっと言ってる とはいえ文盲と5chで話をするのは無理なのでもういいが http://mevi
us.5ch.net/test/read.cgi/tech/1723861080/400
401: デフォルトの名無しさん [sage] 2025/08/04(月) 15:21:55.26 ID:SX/R7tYr >>392-394 Adobe Acrobatで検索もコピペも出来ない/ActualTextの例 http://mevius.5ch.net/test/read.cgi/tech/1723861080/401
402: デフォルトの名無しさん [sage] 2025/08/04(月) 17:34:36.02 ID:B+SwrOCa >>400 だから 317が1対1じゃないって言ってるだろ フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術 それが現在までそのまま引き継がれてる Unicode で始まった話ではない http://mevius.5ch.net/test/read.cgi/tech/1723861080/402
403: デフォルトの名無しさん [sage] 2025/08/04(月) 21:50:35.58 ID:Dprx6XuC >>402 そういう話じゃねえ てかお前も本気で文盲だな 317: 1:1でなら動くシステムに多:1をブッ込んでるから動かない やぞ ただここまで言っても通じないのだから、本件に対し、お前の知能/知識がまるで足りてないんだよ 普通レベルのプログラマなら317で、ああ、そういう事か、で終わるし その後、これをどう評価するか(=PDFが糞か、unicodeが糞か)で揉めるならまだしも、 お前は何故そういう動作になるのか未だに理解出来てない そんなお前が書いたプログラム
なんて、何であれ、動くはずもなし しかしマジで無限ループ状態だから、もう止めようぜ 今のお前が理解するのは無理だよ http://mevius.5ch.net/test/read.cgi/tech/1723861080/403
404: デフォルトの名無しさん [sage] 2025/08/04(月) 22:38:19.37 ID:B+SwrOCa >>403 文盲って言われても 317 は俺が言ってる通りの意味で、お前の解釈が間違ってるんだが? http://mevius.5ch.net/test/read.cgi/tech/1723861080/404
405: デフォルトの名無しさん [sage] 2025/08/04(月) 23:12:47.28 ID:n6MSUZI0 で、いつ検索プログラム書いてくれるの? http://mevius.5ch.net/test/read.cgi/tech/1723861080/405
406: デフォルトの名無しさん [sage] 2025/08/05(火) 17:39:03.31 ID:vuU/s1Wj >>401 え? 例えば箇条書きの部分 (Tom Dick Harry)の先頭は ● (<-文字化けするかな? U+25CF)で検索もコピペもできますが? PDFの中を見てみました? http://mevius.5ch.net/test/read.cgi/tech/1723861080/406
407: デフォルトの名無しさん [sage] 2025/08/05(火) 17:45:25.95 ID:ucdc3IWT >>406 全部でいくつあるか数えたか? その他の/ActualText箇所が対応してない http://mevius.5ch.net/test/read.cgi/tech/1723861080/407
408: デフォルトの名無しさん [sage] 2025/08/05(火) 18:40:04.52 ID:vuU/s1Wj >>407 "T"の所? アクセシビリティをオンにしたらそこを"T"と読むので これで機能している 多分/Spanとの組み合わせにする必要があるんじゃ? http://mevius.5ch.net/test/read.cgi/tech/1723861080/408
409: デフォルトの名無しさん [sage] 2025/08/05(火) 18:52:04.83 ID:vuU/s1Wj ところで、この手のPDFって/Encodingが/Identity-Hじゃないですか もしかして/UniJIS-UTF16-Hとかなら元のコードが反映されるんじゃね? と思って 試してみたが... 駄目ですなーなるほどー 中間コンパイル的な感じでグリフの世界に行っちゃってる感じ? http://mevius.5ch.net/test/read.cgi/tech/1723861080/409
410: デフォルトの名無しさん [sage] 2025/08/05(火) 19:10:13.54 ID:tWkqXVBi >>408 Thisで検索もコピペも機能してない http://mevius.5ch.net/test/read.cgi/tech/1723861080/410
411: デフォルトの名無しさん [sage] 2025/08/07(木) 22:53:42.70 ID:lZ/0qeLw というわけで、今のところActualTextが唯一の方法なのかな 本来は構造化とかタグ付け目的なのかもしれんけど、それでグリフとコードポイントの 対応もローカルにカスタマイズできるというか http://mevius.5ch.net/test/read.cgi/tech/1723861080/411
412: デフォルトの名無しさん [sage] 2025/08/07(木) 23:01:01.28 ID:lZ/0qeLw 現状、それを生成できるPDFライブラリとそれを検索できるPDFビューアが限られるけど ま、コピペするならPDFで出力する前の元の文書からどうぞ、って感じかね そもそも元の文書の持つ論理構造はPDFにした時点で文書のレンダリング表現(って 言うのかな)に変換されるわけで、何かしら情報が変化しても不思議ではない、 というのが個人的感想ですが もちろんこうしてアドビさんは頑張っている一方、それを理解していない人々も多々... http://mevius.5ch.net/test/read.
cgi/tech/1723861080/412
413: デフォルトの名無しさん [sage] 2025/08/07(木) 23:05:14.12 ID:lZ/0qeLw そういえば、ネット上で色んなPDFが検索できるけど、中にはActualTextを使わずに 複数コードポイントが混在できているのもあった それはフォントを切り替えることでグリフが重複していないのだった PDFの生成主がそれを意図的にやったのかは不明だが http://mevius.5ch.net/test/read.cgi/tech/1723861080/413
414: デフォルトの名無しさん [sage] 2025/08/17(日) 14:45:32.19 ID:2MRCWKC9 康煕部首の「長」と普通の「長」がコピペで混在できる(こともある)PDFを 作ってみましたが、いかがでしょう https://drive.google.com/file/d/1sqQ6lqQhvfC_zTkL3B4fQ_GV4_376O10/ とりあえずGoogle Driveが立ち上げるPDFビューアではうまくいかない模様w http://mevius.5ch.net/test/read.cgi/tech/1723861080/414
415: デフォルトの名無しさん [sage] 2025/08/18(月) 08:42:57.19 ID:uGdRPz4N ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね http://mevius.5ch.net/test/read.cgi/tech/1723861080/415
416: デフォルトの名無しさん [sage] 2025/08/18(月) 09:08:02.65 ID:uGdRPz4N この手のPDFでは、フォントは部分埋め込みなのでCMapも対応する部分だけで よく、すると一般的な文書の文字範囲では1対1対応にできる(場合が多い)のに MSの場合はそれでもバグっている、わけね 埋め込みフォントを作る時点ではもうグリフしか見てないということか http://mevius.5ch.net/test/read.cgi/tech/1723861080/416
417: デフォルトの名無しさん [sage] 2025/08/19(火) 15:11:53.55 ID:u9mpg9OM Windowsのフォントをちょっと調べてみたら、MS明朝とか、「長」のグリフが重複していない それでPDFを生成してみると... やはりコピペで文字化けしない と言うわけでWindowsユーザーの皆さん、これからはMSのフォントだけを使う、 と言うのはどうだろうか。游明朝とかのことは忘れて WindowsのPDF生成ドライバーもそれを望んでいるのかもしれない http://mevius.5ch.net/test/read.cgi/tech/1723861080/417
418: デフォルトの名無しさん [sage] 2025/08/19(火) 16:58:13.69 ID:fPjlHGI2 別にMSじゃなくても伝統的な日本語(JIS系や adobe-japan系)の文字しか入ってないフォントで重複してることなんてめったにないよ 複数の国の文字(中国漢字など)や異なる用途の文字(部首素片など)を同じフォントに収録してる場合にグリフ重複させる場合が多い 最近 google の Noto フォントみたいな多言語対応フォントを使い始めるやつが増えて問題を「再発見」してるだけ そのせいで unicode のせいだとか言い出すアホが湧いてたわけだが(当然だがフォントには uni
code に関係なく任意の文字とマップが登録できる) http://mevius.5ch.net/test/read.cgi/tech/1723861080/418
419: デフォルトの名無しさん [sage] 2025/08/19(火) 23:57:36.77 ID:RalGdNCX もちろんその通り unicodeのせいだと主張してる人は根本的にわかっていない http://mevius.5ch.net/test/read.cgi/tech/1723861080/419
420: デフォルトの名無しさん [sage] 2025/08/20(水) 00:55:18.59 ID:hGmntMeI >>418みたいのって、どこかに書いてあるのでしょうか それとも純粋に個人的な発想でしょうか http://mevius.5ch.net/test/read.cgi/tech/1723861080/420
421: デフォルトの名無しさん [sage] 2025/08/20(水) 01:07:20.10 ID:gymbsza2 >>420 opentype とか truetype とかもっと古い type1 とかフォントの規格と歴史を勉強しろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/421
422: デフォルトの名無しさん [sage] 2025/08/20(水) 13:03:56.81 ID:NLPMnvCO >>421 なるほど、そういったものを経て>>418のような知識につながったと。興味深いです http://mevius.5ch.net/test/read.cgi/tech/1723861080/422
423: デフォルトの名無しさん [sage] 2025/08/20(水) 14:23:04.97 ID:bjR6GZEK >>418 お前が相変わらずアホなだけ 実際、SJIS時代に多言語対応フォントなんて誰も使ってなかったろ お前は仕様的に出来る/出来ない事と、実際にみんながどう運用してるかの区別が付いてない 仕様が完全でなくても、通常の運用では十分カバー出来てた事を、 無駄に意識高いお前のような馬鹿が「仕様ガー悪いノデー僕は悪くアリマセンー」なノリで不用意に そこらの意識低いド平民にも問題を強制的に「再発見」させたのはunicodeだろ しかもunicodeでもグリフを重
複させていなければ回避出来た話 (そもそも部首素片と一般の字のグリフが同じなのはただの手抜きな気がするのだが、 一般的に同じグリフにするのが正しいのだろうか?) その他も含めて見る限り、unicodeは無駄に意識高い馬鹿が作った仕様で、実際の運用には向いてない感じだけど MSはこの辺昔から泥臭くて、仕様の綺麗さより実際の使い勝手を重視するので、フォントもそうなってるだけ (まあPDFのコピペ文字化けについては、 お前的にはunicodeではなくフォント『だけの』問題だ、としたいのだろうが、 unicodeがその他諸々糞で、この問題でも誘発源
になってるのは事実だろ) そしてふと考えてみるに、unicodeの利点って、 ・文字化けしない だけで、これ以外は全て以前のSJISの方が良い気がしてきた 勿論これだけで十分な利点だし、SJIS以前の仕様はCPUが非力な時代の産物だから運用向きなのも事実だが http://mevius.5ch.net/test/read.cgi/tech/1723861080/423
424: デフォルトの名無しさん [sage] 2025/08/20(水) 15:48:16.32 ID:EXUVzrtL 絶対負けを認めないマン http://mevius.5ch.net/test/read.cgi/tech/1723861080/424
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 46 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.008s