【node.js】サーバサイドjavascript 5【Nashorn】 (796レス)
上下前次1-新
抽出解除 必死チェッカー(本家) (べ) 自ID レス栞 あぼーん
79(1): デフォルトの名無しさん [sage] 2018/04/04(水) 02:04:22.96 ID:dci/EUEW(1/3) AAS
dat ファイルって、5ch の?
HTML に、文字コードを付けていないのだろ。
どうせ、CP932 だろ
強制変換すれば?
83: デフォルトの名無しさん [sage] 2018/04/04(水) 02:55:41.91 ID:dci/EUEW(2/3) AAS
スクレイピングなら、Ruby で、Selenium WebDriver, Mechanize の方が簡単
JavaScript, Node は、面倒くさい。
まだ、Electron の方がマシ
85: デフォルトの名無しさん [sage] 2018/04/04(水) 14:38:08.10 ID:dci/EUEW(3/3) AAS
参考までに。
Ruby で、Selenium WebDriver で、Chrome のHeadless mode で、
5ch をスクレイピングしたら、文字化けもせずに、テキストが取得できた
ブラウザが、CP932 を自動的に、UTF-8 に変換しているのかな?
driver.navigate.to "2chスレ:linux
element = driver.find_element(:css, 'div[data-id="8"] > div.message > span')
puts "内容 :#{element.text}"
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.031s