スクリプト#3 @避難所 (1000レス)
スクリプト#3 @避難所 http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(簡易版)
自ID
レス栞
あぼーん
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
54: 名無しさん@避難所 [sage] 上手くいきそうだけどHTMLが完璧じゃないとエラーになる var factory = javax.xml.parsers.DocumentBuilderFactory.newInstance(); var documentBuilder = factory.newDocumentBuilder(); var document = documentBuilder.parse(Url);←67行目 var root = document.getDocumentElement(); //ルート要素のノード名を取得する v2c.alert("ノード名:" +root.getNodeName()); 67行目org.xml.sax.SAXParseException: The element type "img" must be terminated by the matching end-tag "</img>". javaソースだとこれが指定されてるけどなんか関係あるのかな public void domRead(String file) throws SAXException, IOException, ParserConfigurationException http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/54
55: 名無しさん@避難所 [sage] https://jsoup.org/download これでhtml読めそうだからやってみるか http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/55
56: 名無しさん@避難所 [sage] >>55 これ使ったら成功したみたいだが ドキュメントがわかりにくいのとサンプルプログラムがないから 子ノードを配列にしてfor文で回すのがわからん javaのlib/extフォルダにjarを入れとけば設定なしで使えたので助かった var document = org.jsoup.Jsoup.connect("http://www.babymetal.com/jp/").get(); v2c.alert(document.title()); http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/56
57: 名無しさん@避難所 [sage] var document = org.jsoup.Jsoup.connect("http://www.babymetal.com/jp/").get(); var elements = document.getElementById("news_list"); var newurl = elements.getElementsByTag("li"); v2c.alert(newurl.html()); <a href="http://www.toysfactory.co.jp/artist/babymetal/metalgalaxy20191011 " target="_blank"> urlを抜き出したいが上手くいかない もう少しでどうにかなりそう http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/57
58: 名無しさん@避難所 [sage] javaだとこのfor文使えるが for (Element element : allElements) javascriptのfor( of )はオブジェクトに使えないから次が読めない 困った javaのfor文を使える裏技ないのかな http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/58
59: 名無しさん@避難所 [sage] >>58 html化にして\nで区切って配列にして for文で一行ずつ再オブジェクト化したら URLを抜き出せた var array = newurl.html().split('\n') for(var i = 0; i < array.length; i++) { var doc = org.jsoup.Jsoup.parse(array[i]); var doc2 = doc.getElementsByTag("a"); var attr2 = doc2.attr("href"); } 間抜けだけどしょうがない matchで抜き出すよりはこっちの方がスマートだな http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/59
61: 名無しさん@避難所 [sage] >>60 newurl.lengthはundefinedでダメだった http://jbbs.shitaraba.net/bbs/read.cgi/computer/43680/1565982415/61
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.022s