文字コード総合スレ part15 (462レス)
上下前次1-新
抽出解除 レス栞
18: 2024/08/31(土)10:12:54.19 ID:oPSFGvVw(1) AAS
毛頭はIIやIIIを好むけど同じ問題だな
95: 2024/11/18(月)23:18:52.19 ID:cZsx9Sbk(1/2) AAS
UTF-8は世界の誰もが好むわけではない。
どの民族もUTF-8の良いところと悪いところで悩んでいる
191: 188-189 01/18(土)12:30:08.19 ID:ZXpOcGU5(1) AAS
>>190
なるほどね納得
不正な文字コードに遭遇したら処理を進めないで即座にエラーにするが良さそう
問題は処理系がちゃんと不正な文字コードを感知するかどうかだけど、
WindowsでA系APIを使っていれば(RawワイドストリングのUTF-16解釈が試みられて)
不正なパラメータエラーとかで(ディレクトリスキャン時などの)早期に発見できそうな気がする
210: 01/20(月)23:35:21.19 ID:fw0guZsp(5/5) AAS
>>208
他言語のStringBuilder等ならそうだけど
OsStringには直接の比較関数等もあるので結合時点以外に選択肢は無いと思う
276(1): 01/31(金)20:45:51.19 ID:B141IEhK(2/4) AAS
そもそも正規化自体は都合に合わせて勝手にやるもんだぜ?
Windowsの.で終わるファイル名を拡張子なしと同一視するのも正規化だし
掲示板への書き込みで行頭のスペースが消えるのも正規化だ
Unicodeで定義されたやつだけが正規化ではないというのは大前提として
字形を変えない範囲で厄介な合成分解で別ファイル扱いになるのを避けたい
というのは他の文字コードからUnicodeへの過渡期では当然の要求だろう
他のOSとのやりとりでトラブルが起きるようになったのはもっと考えるべきだったとは思うが
378(1): 08/01(金)22:01:15.19 ID:wR/jTASQ(2/2) AAS
>>377
> 検索文字列がフォント名とグリフIDのセットで降ってくるとでも思ってるのか?
お前のプログラミング能力はゼロで、文字列検索では具体的に何をしてるのか全く知らない事は分かった
ただこれはプログラマには常識過ぎるので、316のリンク先やこのスレ内でも、誰もわざわざ言及していない
だからお前は付いてこれないままだ
だが、それ以前に、お前は文字列とは何なのかも知らなそうだが
そもそも>>317もまるで理解できてないだろ
理解したければ、プログラミングのイロハから勉強するんだね
多分お前はPDFのヘビーユーザー、おそらくはイラレ使い、てなところか
お前が文字コードの問題まで理解できることは、短期的にはない。ベースの知識が足り無すぎる
省3
414: 08/17(日)14:45:32.19 ID:2MRCWKC9(1) AAS
康煕部首の「長」と普通の「長」がコピペで混在できる(こともある)PDFを
作ってみましたが、いかがでしょう
外部リンク:drive.google.com
とりあえずGoogle Driveが立ち上げるPDFビューアではうまくいかない模様w
415: 08/18(月)08:42:57.19 ID:uGdRPz4N(1/2) AAS
ActualTextだとPDF内で該当文字が出てくるたび必要なので煩雑ではあるね
439: 08/21(木)09:07:08.19 ID:4FAr+8B9(1) AAS
>>436
昔のAIにSJISをunicodeに変換するコード書かせたら何故かテーブルもってなくて機械的にシフトと論理演算で変換できますってコード出されたって話を思い出した
お前、そのAIだったりしないか?
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.031s