文字コード総合スレ part15 (462レス)
1-

415: デフォルトの名無しさん [sage] 2025/08/18(月) 08:42:57.19 ID:uGdRPz4N(1/2) AAS
ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね
416: デフォルトの名無しさん [sage] 2025/08/18(月) 09:08:02.65 ID:uGdRPz4N(2/2) AAS
この手のPDFでは、フォントは部分埋め込みなのでCMapも対応する部分だけで
よく、すると一般的な文書の文字範囲では1対1対応にできる(場合が多い)のに
MSの場合はそれでもバグっている、わけね
埋め込みフォントを作る時点ではもうグリフしか見てないということか
417: デフォルトの名無しさん [sage] 2025/08/19(火) 15:11:53.55 ID:u9mpg9OM(1) AAS
Windowsのフォントをちょっと調べてみたら、MS明朝とか、「長」のグリフが重複していない
それでPDFを生成してみると... やはりコピペで文字化けしない

と言うわけでWindowsユーザーの皆さん、これからはMSのフォントだけを使う、
と言うのはどうだろうか。游明朝とかのことは忘れて
WindowsのPDF生成ドライバーもそれを望んでいるのかもしれない
418
(3): デフォルトの名無しさん [sage] 2025/08/19(火) 16:58:13.69 ID:fPjlHGI2(1) AAS
別にMSじゃなくても伝統的な日本語(JIS系や adobe-japan系)の文字しか入ってないフォントで重複してることなんてめったにないよ
複数の国の文字(中国漢字など)や異なる用途の文字(部首素片など)を同じフォントに収録してる場合にグリフ重複させる場合が多い
最近 google の Noto フォントみたいな多言語対応フォントを使い始めるやつが増えて問題を「再発見」してるだけ
そのせいで unicode のせいだとか言い出すアホが湧いてたわけだが(当然だがフォントには unicode に関係なく任意の文字とマップが登録できる)
419: デフォルトの名無しさん [sage] 2025/08/19(火) 23:57:36.77 ID:RalGdNCX(1) AAS
もちろんその通り
unicodeのせいだと主張してる人は根本的にわかっていない
420
(1): デフォルトの名無しさん [sage] 2025/08/20(水) 00:55:18.59 ID:hGmntMeI(1) AAS
>>418みたいのって、どこかに書いてあるのでしょうか
それとも純粋に個人的な発想でしょうか
421
(1): デフォルトの名無しさん [sage] 2025/08/20(水) 01:07:20.10 ID:gymbsza2(1/2) AAS
>>420
opentype とか truetype とかもっと古い type1 とかフォントの規格と歴史を勉強しろ
422: デフォルトの名無しさん [sage] 2025/08/20(水) 13:03:56.81 ID:NLPMnvCO(1) AAS
>>421
なるほど、そういったものを経て>>418のような知識につながったと。興味深いです
423
(1): デフォルトの名無しさん [sage] 2025/08/20(水) 14:23:04.97 ID:bjR6GZEK(1/2) AAS
>>418
お前が相変わらずアホなだけ
実際、SJIS時代に多言語対応フォントなんて誰も使ってなかったろ
お前は仕様的に出来る/出来ない事と、実際にみんながどう運用してるかの区別が付いてない

仕様が完全でなくても、通常の運用では十分カバー出来てた事を、
無駄に意識高いお前のような馬鹿が「仕様ガー悪いノデー僕は悪くアリマセンー」なノリで不用意に
そこらの意識低いド平民にも問題を強制的に「再発見」させたのはunicodeだろ
しかもunicodeでもグリフを重複させていなければ回避出来た話
(そもそも部首素片と一般の字のグリフが同じなのはただの手抜きな気がするのだが、
一般的に同じグリフにするのが正しいのだろうか?)

その他も含めて見る限り、unicodeは無駄に意識高い馬鹿が作った仕様で、実際の運用には向いてない感じだけど
MSはこの辺昔から泥臭くて、仕様の綺麗さより実際の使い勝手を重視するので、フォントもそうなってるだけ
(まあPDFのコピペ文字化けについては、
お前的にはunicodeではなくフォント『だけの』問題だ、としたいのだろうが、
unicodeがその他諸々糞で、この問題でも誘発源になってるのは事実だろ)
そしてふと考えてみるに、unicodeの利点って、

・文字化けしない

だけで、これ以外は全て以前のSJISの方が良い気がしてきた
勿論これだけで十分な利点だし、SJIS以前の仕様はCPUが非力な時代の産物だから運用向きなのも事実だが
424: デフォルトの名無しさん [sage] 2025/08/20(水) 15:48:16.32 ID:EXUVzrtL(1) AAS
絶対負けを認めないマン
425: デフォルトの名無しさん [sage] 2025/08/20(水) 16:40:06.57 ID:bjR6GZEK(2/2) AAS
勝った負けたではなく、俺の認識はこう、ということ
お前がそう思わないのはお前の自由
(というか、何でも勝った負けたになるのは議論出来ない馬鹿の特徴
そもそも「議論」に勝った負けたはない
勝った負けたがあるのは「討論」=決を採る段階で、5chで(というよりネットで)決採る意味はないから、
そもそもネットでのほぼ全部の議論に勝った負けたはない
その辺ひろゆきも大幅に勘違いしてるし、信奉者も同程度
つかね、論破に拘ってる=論破して喜べる=普段なかなか論破出来てない=馬鹿
ということなので、自分で自己紹介しなくても、とは思うのだが)

PDFの仕様が完璧でなかったにせよ、
SJIS時代にMS明朝等使ってた人=一般の人ほぼ全員は遭遇しなかった問題だろ

・MSが上手く回避策を実行してくれてた事を感謝するタイプか、(正確にはMSがではなく、普通に作ったら回避出来るとも思うが)
・俺が何をやるにしても自由だからとにかく仕様が悪いと言い張るタイプかの違いだよ

俺は前者、unicode連中やお前らは後者、ということ
ただ実際、unicodeはもう一度綺麗に作り直さないと駄目な程度に酷い仕様になってきてるよ
しかしこれはunicodeの唯一の利点=文字化けしないを消す事になるから、死んでもやらないのだろうけど
となると、どこまで行けるか?というチキンレースにはなってるよ
426: デフォルトの名無しさん [sage] 2025/08/20(水) 16:44:32.21 ID:rn5+zHEj(1) AAS
さんざんマウント取る言い方してきて、勝った負けたの勝負じゃないだとw
クソダサ
427
(1): デフォルトの名無しさん [sage] 2025/08/20(水) 17:25:07.68 ID:6T31eh60(1/2) AAS
>>423
SJISなんてものを褒め称えるとはマイクロソフト信者かね
昔からメールなどネット上ではいわゆるJISコード(ISO-2022-JP)が使われてきてこちらが国際的にも通用する主流でUNIXなどではEUC-JPが標準
もちろん今では国際的にUNICODEで統一され符号化はネット上もファイル保存もUTF8だがマイクロソフトさんは
428: デフォルトの名無しさん [sage] 2025/08/20(水) 18:20:43.93 ID:gymbsza2(2/2) AAS
unicode 出る前からフォントは複数の文字コード対応マップで多言語化されれたことを知らないんだろうな
429: デフォルトの名無しさん [sage] 2025/08/20(水) 19:22:16.58 ID:6T31eh60(2/2) AAS
SJISが世界の全てだった人なんだろうね
430: デフォルトの名無しさん [sage] 2025/08/20(水) 21:05:49.55 ID:Qtedysji(1/2) AAS
>>427
JISがメールで使われてたのは7bit透過だからだぞ
SJIS信者だと思うのは自由だが、PDFのコピペに関しては、今風に言うと現場猫だよ
PDF仕様猫:グリフが重複して使われるフォントなんて普通ないからヨシッ
PDF出力アプリ猫:同上、ヨシッ
google猫:PDF出力アプリが対応してればグリフが重複してもヨシッ
unicode猫:同じ字(でもないが)に複数の文字コードを割り当てても、アプリかフォントが対応してればヨシッ

MS:普通、部首素片と通常文字は別グリフだろ、これで何も問題なくなるし
フォントがどうであれ、アプリ側で対応出来るのは事実なので、アプリが一番悪い
次に悪いのはフォントで、手抜きでなければ部首素片と通常文字は別グリフになるように思う
ただしそもそものunicodeの思想が間違ってて、そもそも統合漢字としてるCJKの通常文字、
日本人と台湾人と中国人の美的感覚は異なるだろうから、同一グリフで何とかなると考えてる所に無理がある
ただ、欧米も同様にアルファベットの美的感覚が微妙には異なるはずなので、連中が問題ないからCJKも問題ないと思ったのかな、とは思う
(ここらへんは文化の結合度によるが、欧米ほど人が交流してれば美的感覚もそれなりに共有されてるのかもしれん)

というか、具体的に言うと「骨」(0x9aa8)や「曜」(0x66dc)、これらは美的感覚ではなくモロに別形だが
CJK統合漢字という根本的なとこから間違ってるよねと
というかこれらが別コードとして登録されなかった理由は何なんだ?今更異体字ダーとかやってるのに
431: デフォルトの名無しさん [sage] 2025/08/20(水) 21:08:26.58 ID:Qtedysji(2/2) AAS
ん?2行連続空行は削除されるようになったのか?
まあちと読みにくくなってるが、よろしく
432: デフォルトの名無しさん [sage] 2025/08/21(木) 02:20:32.36 ID:X0ZtFPzr(1) AAS
一つ一つの技術を正しく理解していないから、文字通り「個人の感想ですよね」という
まあ5ちゃんだし、酒飲み話みたいのもアリだとは思うけど
正しい知識が元になっていればそれは役に立つ話にもなる
一方読む方は間違いを間違いと見抜く力が.... って決してひろゆき信者ではないw
433
(1): デフォルトの名無しさん [sage] 2025/08/21(木) 02:56:06.57 ID:D3EzSAOJ(1) AAS
私も世界にSJISさえアレば良かった人間です(過去形)。欲しい文字は外字にドット打ってました。
ROMに第2水準程度しか乗っていない8ビットや16ビット世代のマシンでUTF8を構築するのって、現実的に可能なのかしら。
興味本位の疑問だけど。
434: デフォルトの名無しさん [sage] 2025/08/21(木) 04:47:17.94 ID:HC849JP7(1) AAS
交換用符号としての扱いは楽だけど
ROMのコードがJISだから変換マップをオンメモリにするのは厳しそう
索引付きでないと性能でないと思うから
これもROMで持てるならあり
もちろん幅や方向、合字なんかは扱えない
435: デフォルトの名無しさん [sage] 2025/08/21(木) 05:18:08.01 ID:mNeC3fTJ(1) AAS
>>433
そこはSJISとUTF8といった符号化方式の比較でなくてJIS漢字コードとユニコードの比較で十分
漢字ROMのデータ収録順序はJIS漢字コードの機械的変換できる範囲内だろうから
ユニコードからJIS漢字コードへのマッピング
436
(2): デフォルトの名無しさん [sage] 2025/08/21(木) 05:33:29.34 ID:lFCpHxq7(1) AAS
いわゆる半角カタカナ等(JIS X 0201)と全角漢字等(JIS X 0208)のほとんどは規則的変換できるようにユニコード内に収容されている
例外は一部の記号や文字のみ
したがって漢字ROM読み出しもほとんどは規則的変換できて例外のみ対応で実用的かな
437: デフォルトの名無しさん [sage] 2025/08/21(木) 06:14:19.45 ID:BA9KDvPD(1) AAS
漢字は厳しいだろ
偶然だが半角の途中まではEF BDを前置するとUTF8
 A1 。 EF BD A1

 AF ッ EF BD AF
 B0 ー EF BD B0
 B1 ア EF BD B1
 B2 イ EF BD B2
 B3 ウ EF BD B3
 B4 エ EF BD B4
 B5 オ EF BD B5

 BF ソ EF BD BF
438
(1): デフォルトの名無しさん [sage] 2025/08/21(木) 08:42:01.26 ID:YIWSP+jR(1/2) AAS
>>436
JIS/SJIS/EUC: 外部リンク[htm]:manuals.ricoh.com
unicode: 外部リンク[html]:www.asahi-net.or.jp
さすがゆとりZ、無敵すぎ
439: デフォルトの名無しさん [sage] 2025/08/21(木) 09:07:08.19 ID:4FAr+8B9(1) AAS
>>436
昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した
お前、そのAIだったりしないか?
1-
あと 23 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.021s