[過去ログ]
くだらねえ質問はここに書き込め!Part 246 (1002レス)
くだらねえ質問はここに書き込め!Part 246 http://mao.5ch.net/test/read.cgi/linux/1636203420/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
553: login:Penguin [sage] 2021/12/21(火) 14:24:16.43 ID:GgAzq/Ob curl/wget でダウンロードせずに、 リソースのURL だけを取得するようなオプションは無いのか? 例えば、ボタンを押すと、Ajax でHTML を書き換えて、 今まで存在しなかった、URLが現れると、非常に厄介 5ch がそう 最初に空のHTMLを送ってきてから、Ajaxで内容を取得する。 そこには、200のURLが書いてあるが、ボタンを押せば、500のURLが現れる このように、ユーザーのアクションによって、 ドンドンHTMLが変わっていくので、その中にあるURLも変わっていくのが、厄介 http://mao.5ch.net/test/read.cgi/linux/1636203420/553
584: 553 [sage] 2021/12/22(水) 14:35:46.78 ID:mQmp9DwT >>556 例えば、以下のa.htm で、ボタンと、jQuery, a.js を読み込む時、 <button id="btn_1">押して</button> <scr@ipt src="https://ajax.googleapis.com/ajax/libs/jquery/3.6.0/jquery.min.js"></scr@ipt> <scr@ipt type="text/javascript" src="a.js"></scr@ipt> (注意。投稿できないので、script タグの間に、@を入れました) 以下のa.js には、ボタンを押すと、a タグが追加されるとすると、 $( function( ) { const a_tag = '<a href="b.htm">リンク先へ移動します</a>'; $( '#btn_1' ).one( 'click', function ( ) { $( 'body' ).append( a_tag ); } ); } ); ボタンを押すまでは、HTML 内に、aタグが存在しないから、 b.htm というファイルを使っている事が、ちょっと見ただけでは分からない Ruby on Rails などでは自動テストで、すべてのボタンを押したりして、こういうのをチェックするけど、 普通の検索エンジンでは、こういうのには対応していないので、 最初から、HTML内に読み込まれているテキストに情報を書いておかないといけない 唯一、こういうJavaScript(JS)の読み込み・Ajax に対応しているのは、Chrome のみ。 すべてのボタンを押して、すべてのJSを読み込んだ後の状態を考えるのは、それぐらい難しい http://mao.5ch.net/test/read.cgi/linux/1636203420/584
585: 553 [sage] 2021/12/22(水) 14:39:18.43 ID:mQmp9DwT >>584 修正 >唯一、こういうJavaScript(JS)の読み込み・Ajax に対応しているのは、Chrome のみ Chrome ではありません。 Google 検索のみです http://mao.5ch.net/test/read.cgi/linux/1636203420/585
591: 553 [sage] 2021/12/22(水) 16:50:34.78 ID:mQmp9DwT wget で、何階層も再帰的にたどると、 攻撃とみなされて、訴えられるかも知れないので危険 1階層のみに限定すれば良い。 直リンクの先だけを取得する http://mao.5ch.net/test/read.cgi/linux/1636203420/591
597: login:Penguin [sage] 2021/12/22(水) 23:41:21.70 ID:ZYEXGE2k >>586 >>553に対しては curl/wget のオプションだけでできないから 自分でプログラムとかを作ってやれってことことか http://mao.5ch.net/test/read.cgi/linux/1636203420/597
601: 553 [sage] 2021/12/23(木) 11:28:37.79 ID:JTLGN2PF ファイルを消すのは、かなり危険な事だから、 余程、アプリ開発者が入念なテストを書いていないと無理だと思う 使っているファイルを消すと、リンク切れになる 例えば、Ruby on Rails では、selenium-webdriver, capybara で、headless Chrome を使って、 すべてのボタンなどを押して、すべてのユーザーアクションを自動テストでチェックする 普通、このテストコードは、アプリのソースコードの数倍以上ある。 それぐらい膨大だから、Google 以外の検索エンジンは、 後から読み込む、JavaScript(JS)・Ajax には対応しない すべてのユーザーアクション・JSを実行させて、 それを反映した後のHTML を取得する必要があるから 自分がそのアプリのテストコードを書いていないのなら、やめておいた方が無難。 そのアプリの開発者しか、使うファイルを把握していないから 他人がアプリを分析するのが、極めて難しい http://mao.5ch.net/test/read.cgi/linux/1636203420/601
607: 553 [sage] 2021/12/23(木) 18:48:51.65 ID:JTLGN2PF wget で再帰的にたどれるけど、iframe みたいに、他のドメインをたどっても仕方ない それに、再帰的ダウンロードの危険性については既に、>>591 で述べた 今のサイトのほとんどは、 後からJavaScript(JS)を読み込んで(Ajax)、HTML を変更するから、何でも出来てしまう >>601 で書いたのは、Ruby on Rails で自分で開発したアプリのテストコードですら、 アプリのソースコードの数倍はあるし、どれほどAjaxの管理が難しいかを説明した JSで動的にHTML が変更されるから、Google 以外の検索エンジンは対応できない。 Yahoo も検索エンジンの開発を辞めた 自分が開発していないサイトの動きを突き止めるのは、それぐらい難しいから、 うかつに削除すると、リンク切れを起こすかも Googleの開発者よりも実力があれば、出来るかも知れないが http://mao.5ch.net/test/read.cgi/linux/1636203420/607
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.038s