スクリプト#3 @避難所 (1000レス)
前次1-
抽出解除 必死チェッカー(簡易版) 自ID レス栞 あぼーん

リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
81: 2019/09/13(金)15:06 ID:00XLl0kM0(1/3) AAS
なんか自分も通った記憶のある道でワロタ
全ての文字を数値文字参照(文字参照)に変換すると
文字化けは補償されるんだけどログが全部&#xxxxxになって何が何だか分からなくなる
というオチ
83: 2019/09/13(金)15:32 ID:00XLl0kM0(2/3) AAS
【test】書き込みテスト_02
2chスレ:software
https://i.imgur.com/cOof1Xk.png
 
↑のWEBページソース
https://i.imgur.com/cc0VzGE.png
 
dat(SJIS)の中身
https://i.imgur.com/FOrYDjg.png

5ちゃんはSJIS、ベビメタのサイトはUTF-8だけど
Javaに取り込めばメモリ上は両方ともUTF-16?になるからWEBページの文字コードの違いは吸収される

で出力対象がなんなのかわからんけど例えば出力対象がSJISのdatでも可読文字を数値文字参照(文字参照)で保存しとけば
Javaのレンダラはdat中の数値文字参照(文字参照)を可読可能な文字に置き変えて表示してくれる

なんで文字化けする文字だけ数値文字参照(文字参照)に置き変えればいいのではと

あとサロゲートペアの考慮もいるのかな?
その辺やってるのが昨日上げたgetdat.jsのしたらば対応の処理
84: 2019/09/13(金)15:40 ID:00XLl0kM0(3/3) AAS
UNICODE周りのコード変換なら
https://www.marbacka.net/msearch/tool.php
が便利
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.016s