文字コード総合スレ part15 (413レス)
文字コード総合スレ part15 http://mevius.5ch.net/test/read.cgi/tech/1723861080/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
36: デフォルトの名無しさん [sage] 2024/09/08(日) 01:58:10.59 ID:ZMDGTsRQ 市販の日本語フォントはProフォントでも Adobe-Japan1-7 にある文字どまりで2万3千文字程度 Noto も国ごと文字種ごとにファイル分割されているのでフォント切り替えないと全ての文字は表示できない(あと新しく追加された文字はない いろいろ都合があって一つのフォントファイルに入れるのは最大でも6万字程度に抑えられてるのが実情 http://mevius.5ch.net/test/read.cgi/tech/1723861080/36
109: デフォルトの名無しさん [sage] 2024/12/03(火) 12:52:43.59 ID:DZc+/1dr たまたまSJISでデコードしたら人間に読める(かもしれない)ってだけで 只のバイナリデータだよね http://mevius.5ch.net/test/read.cgi/tech/1723861080/109
361: デフォルトの名無しさん [sage] 2025/07/31(木) 12:22:57.59 ID:1FIA24UI >>360 Windowsの標準のフォントしか使ってないので、遭遇した事もないし、聞いた事もないが (ただ、当時はそうなっても「文字化け」としてスルーされてたとも思うが unicodeしか使った事無いゆとり以降は、文字化け=バグ、とか言い出すから別の問題はあるにしても、 文字化けについて厳しくなってるから話題として出てきてるだけかもしれん) しかし結局、文字コード->グリフで多対一写像があり、戻す時にどちらに戻すべきか分からなくなるのが問題なら、 (SJISな当時に)多対一写像がありまくるのはただの糞フォントだとも思うが 平仮名/片仮名は漢字の簡易形であり、当然似たような字形はあるので、 ほぼ全部のフォントでそれらを何となく区別出来るように大きさを変えてあるのが常だし で、unicodeは多対一写像が仕様だから、 1:1写像な以前の世界向けに作られた物が当然誤動作してるだけだろ (さっさと対応しろよ、なのは勿論だが) して、「酷い」と考える奴は結局、後知恵でもいいからどうすべきだったと考えるのだ? 文字コードを埋め込む方式は、見た目同じだが検索に引っかからない、いわゆる正規化の問題が発生してしまう 同じグリフ->同じ文字コードなら、この問題は存在しない だから「検索」と「コピペ」のどちら向けの仕様にするか、であり、PDFが > 検索ができないのは不便だからってんで (>>328) なら、そりゃ検索向けの仕様にするよ (現在のPDFが検索時に正規化して対応してるとしても、 同じグリフに複数の文字コードを与えている糞フォントな場合、 画面なぞって検索したときに、見た目同じなのに引っかからないケースが発生する 同じグリフなら同じコードだ!の旧方式なら、これはない) http://mevius.5ch.net/test/read.cgi/tech/1723861080/361
363: デフォルトの名無しさん [sage] 2025/07/31(木) 13:09:41.59 ID:Ztum1zAi >>361 フォントが1種類しか使われてないと思い込んでるのがお前の妄想の原因なんだよ アラビア語のフォントが一部に使われてるPDFをSJISのテキストにコピペしたらどうなるか想像つくだろ http://mevius.5ch.net/test/read.cgi/tech/1723861080/363
395: デフォルトの名無しさん [sage] 2025/08/04(月) 12:31:11.59 ID:Dprx6XuC 一部訂正 × コピペに関しては、文字コードを保存してないのが問題で、(>>387) ○ unicodeのコピペに関しては、糞フォントと文字コードを保存してない組み合わせの時の問題で、 PDFの昔の仕様でも、文字コード->グリフが1:1の場合にはコピペ/検索共に全く問題なく機能する 316で「なんか低い…」になるのは、それらの文字コードには別のグリフが与えられているからであり、 PDF閲覧者の環境でその文書のPDFを作成した場合、(3つとも別のグリフなら)全く問題ないPDFが作成される だから発生条件として、 ・糞フォントで、違う文字コードで同じグリフを使いまくり が必要であり、これを誘発しているのはunicodeの仕様 だからPDFがボロいと言うより、 unicodeが本質的にボロくて、以前の1:1な世界と親和性が皆無な事が問題なのだと思うよ (なお316の件は、コードに戻す際、その文書で一度も使ってもない「長」に決め打ちで変換されていると思われ、 PDF出力アプリがポンコツなのもほぼ間違いない 376の通り、「その文書で最初にそのグリフを使った文字コード」を格納する実装なら、 単国籍な文書《≒大半のケース》で顕在化するのは防げる) 結論としては、やっぱunicode糞じゃね?と思うが 以前の文字コード:このコードはこう表示される程度の知識で全く問題ない unicode:正しい作法(正規化等)を知らないと色々誤動作する http://mevius.5ch.net/test/read.cgi/tech/1723861080/395
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.963s*