文字コード総合スレ part15

文字コード総合スレ part15 (470ﾚｽ)
上下前次 1-新

398(1): 08/04(月)14:31 ID:B+SwrOCa(3/5) AAS
>>397
明朝体の「あ」のグリフIDが 325 でゴシック体の「ほ」のグリフIDが同じ 325 ということだってあり得るんだよ
明朝体の「あ」とゴシック体の「あ」は検索したいけど、ゴシック体の「ほ」は検索にひっかかると困る。常識だろ

399(1): 08/04(月)14:37 ID:D3iy7z0J(1) AAS
>>395
>・糞フォントで、違う文字コードで同じグリフを使いまくり
自分の妄想をベースにAdobeに因縁を付けるのか
最近こういう人が増えている感じで怖い

>以前の文字コード：このコードはこう表示される程度の知識で全く問題ない
ある

前提の認識が間違っているのでそれをベースにした話も間違い
ただの間違いの積み重ね

400(1): 08/04(月)15:13 ID:Dprx6XuC(3/4) AAS
>>398
それは初(ry

あとちなみに、「1:1」の表現は317から使われてるだろ
お前以外の誰も「1:1」表現を気にしてないのは、お前だけが特殊(＝非プログラマ)だから
まあ方言っちゃ方言だが、この場合の意味は可逆/非可逆であって、写像形式自体を示しているわけではない

>>399
> 自分の妄想をベースにAdobeに因縁を付けるのか
俺はAdobeは順当で、unicodeがウンコだとずっと言ってる
とはいえ文盲と5chで話をするのは無理なのでもういいが

401(1): 08/04(月)15:21 ID:SX/R7tYr(1) AAS
>>392-394
Adobe Acrobatで検索もコピペも出来ない/ActualTextの例

402(1): 08/04(月)17:34 ID:B+SwrOCa(4/5) AAS
>>400
だから 317が1対1じゃないって言ってるだろ
フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術
それが現在までそのまま引き継がれてる
Unicode で始まった話ではない

403(1): 08/04(月)21:50 ID:Dprx6XuC(4/4) AAS
>>402
そういう話じゃねえ
てかお前も本気で文盲だな

317: 1:1でなら動くシステムに多:1をブッ込んでるから動かない

やぞ
ただここまで言っても通じないのだから、本件に対し、お前の知能/知識がまるで足りてないんだよ
普通レベルのプログラマなら317で、ああ、そういう事か、で終わるし
その後、これをどう評価するか(＝PDFが糞か、unicodeが糞か)で揉めるならまだしも、
お前は何故そういう動作になるのか未だに理解出来てない
そんなお前が書いたプログラムなんて、何であれ、動くはずもなし

しかしマジで無限ループ状態だから、もう止めようぜ
今のお前が理解するのは無理だよ

404: 08/04(月)22:38 ID:B+SwrOCa(5/5) AAS
>>403
文盲って言われても 317 は俺が言ってる通りの意味で、お前の解釈が間違ってるんだが？

405: 08/04(月)23:12 ID:n6MSUZI0(1) AAS
で、いつ検索プログラム書いてくれるの？

406(1): 08/05(火)17:39 ID:vuU/s1Wj(1/3) AAS
>>401
え? 例えば箇条書きの部分 (Tom Dick Harry）の先頭は
● (<-文字化けするかな? U+25CF）で検索もコピペもできますが?
PDFの中を見てみました?

407(1): 08/05(火)17:45 ID:ucdc3IWT(1) AAS
>>406
全部でいくつあるか数えたか?
その他の/ActualText箇所が対応してない

408(1): 08/05(火)18:40 ID:vuU/s1Wj(2/3) AAS
>>407
"T"の所? アクセシビリティをオンにしたらそこを"T"と読むので
これで機能している
多分/Spanとの組み合わせにする必要があるんじゃ?

409: 08/05(火)18:52 ID:vuU/s1Wj(3/3) AAS
ところで、この手のPDFって/Encodingが/Identity-Hじゃないですか
もしかして/UniJIS-UTF16-Hとかなら元のコードが反映されるんじゃね? と思って
試してみたが... 駄目ですなーなるほどー
中間コンパイル的な感じでグリフの世界に行っちゃってる感じ?

410: 08/05(火)19:10 ID:tWkqXVBi(1) AAS
>>408
Thisで検索もコピペも機能してない

411: 08/07(木)22:53 ID:lZ/0qeLw(1/3) AAS
というわけで、今のところActualTextが唯一の方法なのかな
本来は構造化とかタグ付け目的なのかもしれんけど、それでグリフとコードポイントの
対応もローカルにカスタマイズできるというか

412: 08/07(木)23:01 ID:lZ/0qeLw(2/3) AAS
現状、それを生成できるPDFライブラリとそれを検索できるPDFビューアが限られるけど

ま、コピペするならPDFで出力する前の元の文書からどうぞ、って感じかね
そもそも元の文書の持つ論理構造はPDFにした時点で文書のレンダリング表現（って
言うのかな）に変換されるわけで、何かしら情報が変化しても不思議ではない、
というのが個人的感想ですが
もちろんこうしてアドビさんは頑張っている一方、それを理解していない人々も多々...

413: 08/07(木)23:05 ID:lZ/0qeLw(3/3) AAS
そういえば、ネット上で色んなPDFが検索できるけど、中にはActualTextを使わずに
複数コードポイントが混在できているのもあった
それはフォントを切り替えることでグリフが重複していないのだった
PDFの生成主がそれを意図的にやったのかは不明だが

414: 08/17(日)14:45 ID:2MRCWKC9(1) AAS
康煕部首の「長」と普通の「長」がコピペで混在できる（こともある）PDFを
作ってみましたが、いかがでしょう
外部ﾘﾝｸ:drive.google.com

とりあえずGoogle Driveが立ち上げるPDFビューアではうまくいかない模様w

415: 08/18(月)08:42 ID:uGdRPz4N(1/2) AAS
ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね

416: 08/18(月)09:08 ID:uGdRPz4N(2/2) AAS
この手のPDFでは、フォントは部分埋め込みなのでCMapも対応する部分だけで
よく、すると一般的な文書の文字範囲では1対1対応にできる（場合が多い）のに
MSの場合はそれでもバグっている、わけね
埋め込みフォントを作る時点ではもうグリフしか見てないということか

417: 08/19(火)15:11 ID:u9mpg9OM(1) AAS
Windowsのフォントをちょっと調べてみたら、MS明朝とか、「長」のグリフが重複していない
それでPDFを生成してみると... やはりコピペで文字化けしない

と言うわけでWindowsユーザーの皆さん、これからはMSのフォントだけを使う、
と言うのはどうだろうか。游明朝とかのことは忘れて
WindowsのPDF生成ドライバーもそれを望んでいるのかもしれない

418(3): 08/19(火)16:58 ID:fPjlHGI2(1) AAS
別にMSじゃなくても伝統的な日本語（JIS系や adobe-japan系）の文字しか入ってないフォントで重複してることなんてめったにないよ
複数の国の文字（中国漢字など）や異なる用途の文字（部首素片など）を同じフォントに収録してる場合にグリフ重複させる場合が多い
最近 google の Noto フォントみたいな多言語対応フォントを使い始めるやつが増えて問題を「再発見」してるだけ
そのせいで unicode のせいだとか言い出すアホが湧いてたわけだが（当然だがフォントには unicode に関係なく任意の文字とマップが登録できる）

419: 08/19(火)23:57 ID:RalGdNCX(1) AAS
もちろんその通り
unicodeのせいだと主張してる人は根本的にわかっていない

420(1): 08/20(水)00:55 ID:hGmntMeI(1) AAS
>>418みたいのって、どこかに書いてあるのでしょうか
それとも純粋に個人的な発想でしょうか

421(1): 08/20(水)01:07 ID:gymbsza2(1/2) AAS
>>420
opentype とか truetype とかもっと古い type1 とかフォントの規格と歴史を勉強しろ

422: 08/20(水)13:03 ID:NLPMnvCO(1) AAS
>>421
なるほど、そういったものを経て>>418のような知識につながったと。興味深いです

423(1): 08/20(水)14:23 ID:bjR6GZEK(1/2) AAS
>>418
お前が相変わらずアホなだけ
実際、SJIS時代に多言語対応フォントなんて誰も使ってなかったろ
お前は仕様的に出来る/出来ない事と、実際にみんながどう運用してるかの区別が付いてない

仕様が完全でなくても、通常の運用では十分カバー出来てた事を、
無駄に意識高いお前のような馬鹿が「仕様ガー悪いノデー僕は悪くアリマセンー」なノリで不用意に
そこらの意識低いド平民にも問題を強制的に「再発見」させたのはunicodeだろ
しかもunicodeでもグリフを重複させていなければ回避出来た話
(そもそも部首素片と一般の字のグリフが同じなのはただの手抜きな気がするのだが、
一般的に同じグリフにするのが正しいのだろうか？)

その他も含めて見る限り、unicodeは無駄に意識高い馬鹿が作った仕様で、実際の運用には向いてない感じだけど
MSはこの辺昔から泥臭くて、仕様の綺麗さより実際の使い勝手を重視するので、フォントもそうなってるだけ
(まあPDFのコピペ文字化けについては、
お前的にはunicodeではなくフォント『だけの』問題だ、としたいのだろうが、
unicodeがその他諸々糞で、この問題でも誘発源になってるのは事実だろ)
そしてふと考えてみるに、unicodeの利点って、

・文字化けしない

だけで、これ以外は全て以前のSJISの方が良い気がしてきた
勿論これだけで十分な利点だし、SJIS以前の仕様はCPUが非力な時代の産物だから運用向きなのも事実だが

424: 08/20(水)15:48 ID:EXUVzrtL(1) AAS
絶対負けを認めないマン

425: 08/20(水)16:40 ID:bjR6GZEK(2/2) AAS
勝った負けたではなく、俺の認識はこう、ということ
お前がそう思わないのはお前の自由
(というか、何でも勝った負けたになるのは議論出来ない馬鹿の特徴
そもそも「議論」に勝った負けたはない
勝った負けたがあるのは「討論」＝決を採る段階で、5chで(というよりネットで)決採る意味はないから、
そもそもネットでのほぼ全部の議論に勝った負けたはない
その辺ひろゆきも大幅に勘違いしてるし、信奉者も同程度
つかね、論破に拘ってる＝論破して喜べる＝普段なかなか論破出来てない＝馬鹿
ということなので、自分で自己紹介しなくても、とは思うのだが)

PDFの仕様が完璧でなかったにせよ、
SJIS時代にMS明朝等使ってた人＝一般の人ほぼ全員は遭遇しなかった問題だろ

・MSが上手く回避策を実行してくれてた事を感謝するタイプか、(正確にはMSがではなく、普通に作ったら回避出来るとも思うが)
・俺が何をやるにしても自由だからとにかく仕様が悪いと言い張るタイプかの違いだよ

俺は前者、unicode連中やお前らは後者、ということ
ただ実際、unicodeはもう一度綺麗に作り直さないと駄目な程度に酷い仕様になってきてるよ
しかしこれはunicodeの唯一の利点＝文字化けしないを消す事になるから、死んでもやらないのだろうけど
となると、どこまで行けるか？というチキンレースにはなってるよ

426: 08/20(水)16:44 ID:rn5+zHEj(1) AAS
さんざんマウント取る言い方してきて、勝った負けたの勝負じゃないだとw
クソダサ

427(1): 08/20(水)17:25 ID:6T31eh60(1/2) AAS
>>423
SJISなんてものを褒め称えるとはマイクロソフト信者かね
昔からメールなどネット上ではいわゆるJISコード(ISO-2022-JP)が使われてきてこちらが国際的にも通用する主流でUNIXなどではEUC-JPが標準
もちろん今では国際的にUNICODEで統一され符号化はネット上もファイル保存もUTF8だがマイクロソフトさんは

上下前次 1-新書関写板覧索設栞歴

あと 43 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.009s