[過去ログ]
くだすれPython(超初心者用) その46【Ruby禁止】 (1002レス)
くだすれPython(超初心者用) その46【Ruby禁止】 http://mevius.5ch.net/test/read.cgi/tech/1577948214/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
必死チェッカー(本家)
(べ)
自ID
レス栞
あぼーん
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
496: デフォルトの名無しさん [sage] 2020/02/06(木) 12:35:55.03 ID:/hIhK6yv 要素を非同期処理で読み込むから、要素が存在しないとか、 サイトの構成が変わったとか、 XPath/CSS セレクターが間違っているとか、 相手がアクセスをブロックしてくるとか スクレイピングは、相手のサイトを分析するのが難しいのと、 適切に限定される、セレクターを作るのが難しい API が公開されているなら、APIを使った方がよい 漏れは、Ruby で、Selenium WebDriver, Nokogiri などで、 Chrome, Edge などのブラウザーを自動操作して、スクレイピングするけど ここに書いておいた 【VBScript】WSHについて話し合うスレ【JScript】 https://mevius.5ch.net/test/read.cgi/tech/1578522041/24-27 http://mevius.5ch.net/test/read.cgi/tech/1577948214/496
498: 496 [sage] 2020/02/06(木) 12:45:42.46 ID:/hIhK6yv >>492 Base64 は、HTML でもよく使う Base64の文字列で、PNG/JPEG画像を、HTMLファイルに直接埋め込める <img src="data:image/png;base64,xxxxx..." /> http://mevius.5ch.net/test/read.cgi/tech/1577948214/498
499: 496 [sage] 2020/02/06(木) 12:59:31.10 ID:/hIhK6yv >>492 適切に、1つに限定される、セレクターを作るのが難しい! 以下で、特定できないのか? class="rg_i Q4LuWd tx8vtf" data-iid="0" jsname="Q4LuWd" それか、img 要素の外側で、id など、限定される要素を探すか。 基本的には、idを探さないと特定できない idを振っていない場合は、そのサイト特有のルールを発見しないといけない! 例えば、5ch のスレ内では、id が無いから、 data-id に投稿番号が入っているので、それを使うとか このように、相手のサイトを分析するのが難しい! http://mevius.5ch.net/test/read.cgi/tech/1577948214/499
501: 496 [sage] 2020/02/06(木) 14:30:31.06 ID:/hIhK6yv >>496 にも書いたけど、 要素をAjax で非同期処理に読み込むから、またimg 要素が存在しないとか? Ruby で、Selenium WebDriver を使えば、要素が出現するまで、自動的にwait する。 await みたいに、非同期処理を同期的に書ける http://mevius.5ch.net/test/read.cgi/tech/1577948214/501
502: 496 [sage] 2020/02/06(木) 14:34:29.34 ID:/hIhK6yv もっと簡単に、10〜20 秒ぐらい、sleep したら、img 要素が出現しないのか? http://mevius.5ch.net/test/read.cgi/tech/1577948214/502
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.036s