【node.js】サーバサイドjavascript 5【Nashorn】 (796レス)
【node.js】サーバサイドjavascript 5【Nashorn】 http://mevius.5ch.net/test/read.cgi/tech/1518528093/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
自ID
レス栞
あぼーん
79: デフォルトの名無しさん [sage] 2018/04/04(水) 02:04:22.96 ID:dci/EUEW dat ファイルって、5ch の? HTML に、文字コードを付けていないのだろ。 どうせ、CP932 だろ 強制変換すれば? http://mevius.5ch.net/test/read.cgi/tech/1518528093/79
83: デフォルトの名無しさん [sage] 2018/04/04(水) 02:55:41.91 ID:dci/EUEW スクレイピングなら、Ruby で、Selenium WebDriver, Mechanize の方が簡単 JavaScript, Node は、面倒くさい。 まだ、Electron の方がマシ http://mevius.5ch.net/test/read.cgi/tech/1518528093/83
85: デフォルトの名無しさん [sage] 2018/04/04(水) 14:38:08.10 ID:dci/EUEW 参考までに。 Ruby で、Selenium WebDriver で、Chrome のHeadless mode で、 5ch をスクレイピングしたら、文字化けもせずに、テキストが取得できた ブラウザが、CP932 を自動的に、UTF-8 に変換しているのかな? driver.navigate.to "https://mao.5ch.net/test/read.cgi/linux/1479499953/8-9" element = driver.find_element(:css, 'div[data-id="8"] > div.message > span') puts "内容 :#{element.text}" http://mevius.5ch.net/test/read.cgi/tech/1518528093/85
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.034s