スクリプト#3 @避難所 (1000レス)
上下前次1-新
抽出解除 必死チェッカー(簡易版) 自ID レス栞 あぼーん
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
54: 2019/09/08(日)11:19 ID:xWlPuNsQ0(1/7) AAS
上手くいきそうだけどHTMLが完璧じゃないとエラーになる
var factory = javax.xml.parsers.DocumentBuilderFactory.newInstance();
var documentBuilder = factory.newDocumentBuilder();
var document = documentBuilder.parse(Url);←67行目
var root = document.getDocumentElement();
//ルート要素のノード名を取得する
v2c.alert("ノード名:" +root.getNodeName());
67行目org.xml.sax.SAXParseException: The element type "img" must be terminated by the matching end-tag "</img>".
省2
55(1): 2019/09/08(日)12:48 ID:xWlPuNsQ0(2/7) AAS
https://jsoup.org/download
これでhtml読めそうだからやってみるか
56: 2019/09/08(日)15:20 ID:xWlPuNsQ0(3/7) AAS
>>55
これ使ったら成功したみたいだが
ドキュメントがわかりにくいのとサンプルプログラムがないから
子ノードを配列にしてfor文で回すのがわからん
javaのlib/extフォルダにjarを入れとけば設定なしで使えたので助かった
var document = org.jsoup.Jsoup.connect("http://www.babymetal.com/jp/").get();
v2c.alert(document.title());
57: 2019/09/08(日)17:23 ID:xWlPuNsQ0(4/7) AAS
var document = org.jsoup.Jsoup.connect("http://www.babymetal.com/jp/").get();
var elements = document.getElementById("news_list");
var newurl = elements.getElementsByTag("li");
v2c.alert(newurl.html());
<a href="http://www.toysfactory.co.jp/artist/babymetal/metalgalaxy20191011 " target="_blank">
urlを抜き出したいが上手くいかない
もう少しでどうにかなりそう
58(1): 2019/09/08(日)18:18 ID:xWlPuNsQ0(5/7) AAS
javaだとこのfor文使えるが
for (Element element : allElements)
javascriptのfor( of )はオブジェクトに使えないから次が読めない
困った
javaのfor文を使える裏技ないのかな
59: 2019/09/08(日)18:48 ID:xWlPuNsQ0(6/7) AAS
>>58
html化にして\nで区切って配列にして
for文で一行ずつ再オブジェクト化したら
URLを抜き出せた
var array = newurl.html().split('\n')
for(var i = 0; i < array.length; i++) {
var doc = org.jsoup.Jsoup.parse(array[i]);
var doc2 = doc.getElementsByTag("a");
var attr2 = doc2.attr("href");
}
間抜けだけどしょうがない
matchで抜き出すよりはこっちの方がスマートだな
61: 2019/09/08(日)18:57 ID:xWlPuNsQ0(7/7) AAS
>>60
newurl.lengthはundefinedでダメだった
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.017s