[過去ログ] くだらねえ質問はここに書き込め!Part 246 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
553
(6): 2021/12/21(火)14:24 ID:GgAzq/Ob(1) AAS
curl/wget でダウンロードせずに、
リソースのURL だけを取得するようなオプションは無いのか?

例えば、ボタンを押すと、Ajax でHTML を書き換えて、
今まで存在しなかった、URLが現れると、非常に厄介

5ch がそう

最初に空のHTMLを送ってきてから、Ajaxで内容を取得する。
そこには、200のURLが書いてあるが、ボタンを押せば、500のURLが現れる
省2
584
(1): 553 2021/12/22(水)14:35 ID:mQmp9DwT(1/3) AAS
>>556
例えば、以下のa.htm で、ボタンと、jQuery, a.js を読み込む時、

<button id="btn_1">押して</button>

<scr@ipt src="外部リンク:ajax.googleapis.com@ipt>
<scr@ipt type="text/javascript" src="a.js"></scr@ipt>

(注意。投稿できないので、script タグの間に、@を入れました)

以下のa.js には、ボタンを押すと、a タグが追加されるとすると、
省13
585: 553 2021/12/22(水)14:39 ID:mQmp9DwT(2/3) AAS
>>584
修正

>唯一、こういうJavaScript(JS)の読み込み・Ajax に対応しているのは、Chrome のみ

Chrome ではありません。
Google 検索のみです
591
(3): 553 2021/12/22(水)16:50 ID:mQmp9DwT(3/3) AAS
wget で、何階層も再帰的にたどると、
攻撃とみなされて、訴えられるかも知れないので危険

1階層のみに限定すれば良い。
直リンクの先だけを取得する
597
(1): 2021/12/22(水)23:41 ID:ZYEXGE2k(1/2) AAS
>>586
>>553に対しては
curl/wget のオプションだけでできないから
自分でプログラムとかを作ってやれってことことか
601
(2): 553 2021/12/23(木)11:28 ID:JTLGN2PF(1/2) AAS
ファイルを消すのは、かなり危険な事だから、
余程、アプリ開発者が入念なテストを書いていないと無理だと思う

使っているファイルを消すと、リンク切れになる

例えば、Ruby on Rails では、selenium-webdriver, capybara で、headless Chrome を使って、
すべてのボタンなどを押して、すべてのユーザーアクションを自動テストでチェックする

普通、このテストコードは、アプリのソースコードの数倍以上ある。
それぐらい膨大だから、Google 以外の検索エンジンは、
省6
607
(2): 553 2021/12/23(木)18:48 ID:JTLGN2PF(2/2) AAS
wget で再帰的にたどれるけど、iframe みたいに、他のドメインをたどっても仕方ない

それに、再帰的ダウンロードの危険性については既に、>>591
で述べた

今のサイトのほとんどは、
後からJavaScript(JS)を読み込んで(Ajax)、HTML を変更するから、何でも出来てしまう

>>601
で書いたのは、Ruby on Rails で自分で開発したアプリのテストコードですら、
省6
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.034s