[過去ログ] くだらねえ質問はここに書き込め!Part 246 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
553
(6): 2021/12/21(火) 14:24:16 ID:GgAzq/Ob(1)調 AAS
curl/wget でダウンロードせずに、
リソースのURL だけを取得するようなオプションは無いのか?

例えば、ボタンを押すと、Ajax でHTML を書き換えて、
今まで存在しなかった、URLが現れると、非常に厄介

5ch がそう

最初に空のHTMLを送ってきてから、Ajaxで内容を取得する。
そこには、200のURLが書いてあるが、ボタンを押せば、500のURLが現れる

このように、ユーザーのアクションによって、
ドンドンHTMLが変わっていくので、その中にあるURLも変わっていくのが、厄介
584
(1): 553 2021/12/22(水) 14:35:46 ID:mQmp9DwT(1/3)調 AAS
>>556
例えば、以下のa.htm で、ボタンと、jQuery, a.js を読み込む時、

<button id="btn_1">押して</button>

<scr@ipt src="外部リンク:ajax.googleapis.com@ipt>
<scr@ipt type="text/javascript" src="a.js"></scr@ipt>

(注意。投稿できないので、script タグの間に、@を入れました)

以下のa.js には、ボタンを押すと、a タグが追加されるとすると、

$( function( ) {
const a_tag = '<a href="b.htm">リンク先へ移動します</a>';

$( '#btn_1' ).one( 'click', function ( ) {
$( 'body' ).append( a_tag );
} );
} );

ボタンを押すまでは、HTML 内に、aタグが存在しないから、
b.htm というファイルを使っている事が、ちょっと見ただけでは分からない

Ruby on Rails などでは自動テストで、すべてのボタンを押したりして、こういうのをチェックするけど、
普通の検索エンジンでは、こういうのには対応していないので、
最初から、HTML内に読み込まれているテキストに情報を書いておかないといけない

唯一、こういうJavaScript(JS)の読み込み・Ajax に対応しているのは、Chrome のみ。
すべてのボタンを押して、すべてのJSを読み込んだ後の状態を考えるのは、それぐらい難しい
585: 553 2021/12/22(水) 14:39:18 ID:mQmp9DwT(2/3)調 AAS
>>584
修正

>唯一、こういうJavaScript(JS)の読み込み・Ajax に対応しているのは、Chrome のみ

Chrome ではありません。
Google 検索のみです
591
(3): 553 2021/12/22(水) 16:50:34 ID:mQmp9DwT(3/3)調 AAS
wget で、何階層も再帰的にたどると、
攻撃とみなされて、訴えられるかも知れないので危険

1階層のみに限定すれば良い。
直リンクの先だけを取得する
597
(1): 2021/12/22(水) 23:41:21 ID:ZYEXGE2k(1/2)調 AAS
>>586
>>553に対しては
curl/wget のオプションだけでできないから
自分でプログラムとかを作ってやれってことことか
601
(2): 553 2021/12/23(木) 11:28:37 ID:JTLGN2PF(1/2)調 AAS
ファイルを消すのは、かなり危険な事だから、
余程、アプリ開発者が入念なテストを書いていないと無理だと思う

使っているファイルを消すと、リンク切れになる

例えば、Ruby on Rails では、selenium-webdriver, capybara で、headless Chrome を使って、
すべてのボタンなどを押して、すべてのユーザーアクションを自動テストでチェックする

普通、このテストコードは、アプリのソースコードの数倍以上ある。
それぐらい膨大だから、Google 以外の検索エンジンは、
後から読み込む、JavaScript(JS)・Ajax には対応しない

すべてのユーザーアクション・JSを実行させて、
それを反映した後のHTML を取得する必要があるから

自分がそのアプリのテストコードを書いていないのなら、やめておいた方が無難。
そのアプリの開発者しか、使うファイルを把握していないから

他人がアプリを分析するのが、極めて難しい
607
(2): 553 2021/12/23(木) 18:48:51 ID:JTLGN2PF(2/2)調 AAS
wget で再帰的にたどれるけど、iframe みたいに、他のドメインをたどっても仕方ない

それに、再帰的ダウンロードの危険性については既に、>>591
で述べた

今のサイトのほとんどは、
後からJavaScript(JS)を読み込んで(Ajax)、HTML を変更するから、何でも出来てしまう

>>601
で書いたのは、Ruby on Rails で自分で開発したアプリのテストコードですら、
アプリのソースコードの数倍はあるし、どれほどAjaxの管理が難しいかを説明した

JSで動的にHTML が変更されるから、Google 以外の検索エンジンは対応できない。
Yahoo も検索エンジンの開発を辞めた

自分が開発していないサイトの動きを突き止めるのは、それぐらい難しいから、
うかつに削除すると、リンク切れを起こすかも

Googleの開発者よりも実力があれば、出来るかも知れないが
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 1.435s*