文字コード総合スレ part15 (431レス)
上下前次1-新
1: 2024/08/17(土)11:18 ID:VHa7+i59(1/2) AAS
文字コードについて語り合うスレです
402(1): 08/04(月)17:34 ID:B+SwrOCa(4/5) AAS
>>400
だから 317が1対1じゃないって言ってるだろ
フォントと文字コードが1対1じゃないのは Unicode どころかPDFよりもっと前の PostScript のフォントで使われ始めた技術
それが現在までそのまま引き継がれてる
Unicode で始まった話ではない
403(1): 08/04(月)21:50 ID:Dprx6XuC(4/4) AAS
>>402
そういう話じゃねえ
てかお前も本気で文盲だな
317: 1:1でなら動くシステムに多:1をブッ込んでるから動かない
やぞ
ただここまで言っても通じないのだから、本件に対し、お前の知能/知識がまるで足りてないんだよ
普通レベルのプログラマなら317で、ああ、そういう事か、で終わるし
その後、これをどう評価するか(=PDFが糞か、unicodeが糞か)で揉めるならまだしも、
お前は何故そういう動作になるのか未だに理解出来てない
そんなお前が書いたプログラムなんて、何であれ、動くはずもなし
しかしマジで無限ループ状態だから、もう止めようぜ
今のお前が理解するのは無理だよ
404: 08/04(月)22:38 ID:B+SwrOCa(5/5) AAS
>>403
文盲って言われても 317 は俺が言ってる通りの意味で、お前の解釈が間違ってるんだが?
405: 08/04(月)23:12 ID:n6MSUZI0(1) AAS
で、いつ検索プログラム書いてくれるの?
406(1): 08/05(火)17:39 ID:vuU/s1Wj(1/3) AAS
>>401
え? 例えば箇条書きの部分 (Tom Dick Harry)の先頭は
● (<-文字化けするかな? U+25CF)で検索もコピペもできますが?
PDFの中を見てみました?
407(1): 08/05(火)17:45 ID:ucdc3IWT(1) AAS
>>406
全部でいくつあるか数えたか?
その他の/ActualText箇所が対応してない
408(1): 08/05(火)18:40 ID:vuU/s1Wj(2/3) AAS
>>407
"T"の所? アクセシビリティをオンにしたらそこを"T"と読むので
これで機能している
多分/Spanとの組み合わせにする必要があるんじゃ?
409: 08/05(火)18:52 ID:vuU/s1Wj(3/3) AAS
ところで、この手のPDFって/Encodingが/Identity-Hじゃないですか
もしかして/UniJIS-UTF16-Hとかなら元のコードが反映されるんじゃね? と思って
試してみたが... 駄目ですなーなるほどー
中間コンパイル的な感じでグリフの世界に行っちゃってる感じ?
410: 08/05(火)19:10 ID:tWkqXVBi(1) AAS
>>408
Thisで検索もコピペも機能してない
411: 08/07(木)22:53 ID:lZ/0qeLw(1/3) AAS
というわけで、今のところActualTextが唯一の方法なのかな
本来は構造化とかタグ付け目的なのかもしれんけど、それでグリフとコードポイントの
対応もローカルにカスタマイズできるというか
412: 08/07(木)23:01 ID:lZ/0qeLw(2/3) AAS
現状、それを生成できるPDFライブラリとそれを検索できるPDFビューアが限られるけど
ま、コピペするならPDFで出力する前の元の文書からどうぞ、って感じかね
そもそも元の文書の持つ論理構造はPDFにした時点で文書のレンダリング表現(って
言うのかな)に変換されるわけで、何かしら情報が変化しても不思議ではない、
というのが個人的感想ですが
もちろんこうしてアドビさんは頑張っている一方、それを理解していない人々も多々...
413: 08/07(木)23:05 ID:lZ/0qeLw(3/3) AAS
そういえば、ネット上で色んなPDFが検索できるけど、中にはActualTextを使わずに
複数コードポイントが混在できているのもあった
それはフォントを切り替えることでグリフが重複していないのだった
PDFの生成主がそれを意図的にやったのかは不明だが
414: 08/17(日)14:45 ID:2MRCWKC9(1) AAS
康煕部首の「長」と普通の「長」がコピペで混在できる(こともある)PDFを
作ってみましたが、いかがでしょう
外部リンク:drive.google.com
とりあえずGoogle Driveが立ち上げるPDFビューアではうまくいかない模様w
415: 08/18(月)08:42 ID:uGdRPz4N(1/2) AAS
ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね
416: 08/18(月)09:08 ID:uGdRPz4N(2/2) AAS
この手のPDFでは、フォントは部分埋め込みなのでCMapも対応する部分だけで
よく、すると一般的な文書の文字範囲では1対1対応にできる(場合が多い)のに
MSの場合はそれでもバグっている、わけね
埋め込みフォントを作る時点ではもうグリフしか見てないということか
417: 08/19(火)15:11 ID:u9mpg9OM(1) AAS
Windowsのフォントをちょっと調べてみたら、MS明朝とか、「長」のグリフが重複していない
それでPDFを生成してみると... やはりコピペで文字化けしない
と言うわけでWindowsユーザーの皆さん、これからはMSのフォントだけを使う、
と言うのはどうだろうか。游明朝とかのことは忘れて
WindowsのPDF生成ドライバーもそれを望んでいるのかもしれない
418(3): 08/19(火)16:58 ID:fPjlHGI2(1) AAS
別にMSじゃなくても伝統的な日本語(JIS系や adobe-japan系)の文字しか入ってないフォントで重複してることなんてめったにないよ
複数の国の文字(中国漢字など)や異なる用途の文字(部首素片など)を同じフォントに収録してる場合にグリフ重複させる場合が多い
最近 google の Noto フォントみたいな多言語対応フォントを使い始めるやつが増えて問題を「再発見」してるだけ
そのせいで unicode のせいだとか言い出すアホが湧いてたわけだが(当然だがフォントには unicode に関係なく任意の文字とマップが登録できる)
419: 08/19(火)23:57 ID:RalGdNCX(1) AAS
もちろんその通り
unicodeのせいだと主張してる人は根本的にわかっていない
420(1): 08/20(水)00:55 ID:hGmntMeI(1) AAS
>>418みたいのって、どこかに書いてあるのでしょうか
それとも純粋に個人的な発想でしょうか
421(1): 08/20(水)01:07 ID:gymbsza2(1/2) AAS
>>420
opentype とか truetype とかもっと古い type1 とかフォントの規格と歴史を勉強しろ
422: 08/20(水)13:03 ID:NLPMnvCO(1) AAS
>>421
なるほど、そういったものを経て>>418のような知識につながったと。興味深いです
423(1): 08/20(水)14:23 ID:bjR6GZEK(1/2) AAS
>>418
お前が相変わらずアホなだけ
実際、SJIS時代に多言語対応フォントなんて誰も使ってなかったろ
お前は仕様的に出来る/出来ない事と、実際にみんながどう運用してるかの区別が付いてない
仕様が完全でなくても、通常の運用では十分カバー出来てた事を、
無駄に意識高いお前のような馬鹿が「仕様ガー悪いノデー僕は悪くアリマセンー」なノリで不用意に
そこらの意識低いド平民にも問題を強制的に「再発見」させたのはunicodeだろ
しかもunicodeでもグリフを重複させていなければ回避出来た話
(そもそも部首素片と一般の字のグリフが同じなのはただの手抜きな気がするのだが、
一般的に同じグリフにするのが正しいのだろうか?)
その他も含めて見る限り、unicodeは無駄に意識高い馬鹿が作った仕様で、実際の運用には向いてない感じだけど
MSはこの辺昔から泥臭くて、仕様の綺麗さより実際の使い勝手を重視するので、フォントもそうなってるだけ
(まあPDFのコピペ文字化けについては、
お前的にはunicodeではなくフォント『だけの』問題だ、としたいのだろうが、
unicodeがその他諸々糞で、この問題でも誘発源になってるのは事実だろ)
そしてふと考えてみるに、unicodeの利点って、
・文字化けしない
だけで、これ以外は全て以前のSJISの方が良い気がしてきた
勿論これだけで十分な利点だし、SJIS以前の仕様はCPUが非力な時代の産物だから運用向きなのも事実だが
424: 08/20(水)15:48 ID:EXUVzrtL(1) AAS
絶対負けを認めないマン
425: 08/20(水)16:40 ID:bjR6GZEK(2/2) AAS
勝った負けたではなく、俺の認識はこう、ということ
お前がそう思わないのはお前の自由
(というか、何でも勝った負けたになるのは議論出来ない馬鹿の特徴
そもそも「議論」に勝った負けたはない
勝った負けたがあるのは「討論」=決を採る段階で、5chで(というよりネットで)決採る意味はないから、
そもそもネットでのほぼ全部の議論に勝った負けたはない
その辺ひろゆきも大幅に勘違いしてるし、信奉者も同程度
つかね、論破に拘ってる=論破して喜べる=普段なかなか論破出来てない=馬鹿
ということなので、自分で自己紹介しなくても、とは思うのだが)
PDFの仕様が完璧でなかったにせよ、
SJIS時代にMS明朝等使ってた人=一般の人ほぼ全員は遭遇しなかった問題だろ
・MSが上手く回避策を実行してくれてた事を感謝するタイプか、(正確にはMSがではなく、普通に作ったら回避出来るとも思うが)
・俺が何をやるにしても自由だからとにかく仕様が悪いと言い張るタイプかの違いだよ
俺は前者、unicode連中やお前らは後者、ということ
ただ実際、unicodeはもう一度綺麗に作り直さないと駄目な程度に酷い仕様になってきてるよ
しかしこれはunicodeの唯一の利点=文字化けしないを消す事になるから、死んでもやらないのだろうけど
となると、どこまで行けるか?というチキンレースにはなってるよ
426: 08/20(水)16:44 ID:rn5+zHEj(1) AAS
さんざんマウント取る言い方してきて、勝った負けたの勝負じゃないだとw
クソダサ
427(1): 08/20(水)17:25 ID:6T31eh60(1/2) AAS
>>423
SJISなんてものを褒め称えるとはマイクロソフト信者かね
昔からメールなどネット上ではいわゆるJISコード(ISO-2022-JP)が使われてきてこちらが国際的にも通用する主流でUNIXなどではEUC-JPが標準
もちろん今では国際的にUNICODEで統一され符号化はネット上もファイル保存もUTF8だがマイクロソフトさんは
428: 08/20(水)18:20 ID:gymbsza2(2/2) AAS
unicode 出る前からフォントは複数の文字コード対応マップで多言語化されれたことを知らないんだろうな
429: 08/20(水)19:22 ID:6T31eh60(2/2) AAS
SJISが世界の全てだった人なんだろうね
430: 08/20(水)21:05 ID:Qtedysji(1/2) AAS
>>427
JISがメールで使われてたのは7bit透過だからだぞ
SJIS信者だと思うのは自由だが、PDFのコピペに関しては、今風に言うと現場猫だよ
PDF仕様猫:グリフが重複して使われるフォントなんて普通ないからヨシッ
PDF出力アプリ猫:同上、ヨシッ
google猫:PDF出力アプリが対応してればグリフが重複してもヨシッ
unicode猫:同じ字(でもないが)に複数の文字コードを割り当てても、アプリかフォントが対応してればヨシッ
MS:普通、部首素片と通常文字は別グリフだろ、これで何も問題なくなるし
フォントがどうであれ、アプリ側で対応出来るのは事実なので、アプリが一番悪い
次に悪いのはフォントで、手抜きでなければ部首素片と通常文字は別グリフになるように思う
ただしそもそものunicodeの思想が間違ってて、そもそも統合漢字としてるCJKの通常文字、
日本人と台湾人と中国人の美的感覚は異なるだろうから、同一グリフで何とかなると考えてる所に無理がある
ただ、欧米も同様にアルファベットの美的感覚が微妙には異なるはずなので、連中が問題ないからCJKも問題ないと思ったのかな、とは思う
(ここらへんは文化の結合度によるが、欧米ほど人が交流してれば美的感覚もそれなりに共有されてるのかもしれん)
というか、具体的に言うと「骨」(0x9aa8)や「曜」(0x66dc)、これらは美的感覚ではなくモロに別形だが
CJK統合漢字という根本的なとこから間違ってるよねと
というかこれらが別コードとして登録されなかった理由は何なんだ?今更異体字ダーとかやってるのに
431: 08/20(水)21:08 ID:Qtedysji(2/2) AAS
ん?2行連続空行は削除されるようになったのか?
まあちと読みにくくなってるが、よろしく
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 2.474s*