[過去ログ]
くだすれPython(超初心者用) その46【Ruby禁止】 (1002レス)
くだすれPython(超初心者用) その46【Ruby禁止】 http://mevius.5ch.net/test/read.cgi/tech/1577948214/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
492: デフォルトの名無しさん [] 2020/02/06(木) 11:28:23.61 ID:GAMNd4TG 一昨日くらいまでは取れておりました。 現在も、 ではグーグル画像検索そのものが取れてないとか何かブロックされているのか?と言うと elems= の前に 例えば print(html) とするとGoogle画像検索結果の画面全体は取れているのです。 しかしそれは全体像なので、個々の1枚1枚を取得してphpmyadminに格納したり、とかそれが狙いであるので elems = のところでつまずいてはやはりまずい具合です。 そして目的の画像検索結果、 例えば 山で検索して <!-- <img class="rg_i Q4LuWd tx8vtf" src="data:image/gif;base64,R0lGODlhAQABAIAAAP///////yH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==" data-iid="0" data-iurl="https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcRFWZJ-G8GOvPEcPPJZqy_IqLTMokKOyW_VAdDON2S_9V6cnOQZ" jsname="Q4LuWd" alt="「山」の画像検索結果" /> --> ↑この要素が欲しいものです ここのimgのclassにrg_i というものがありこれはヒントの一つ?かと想像したりするのですが data-iurl= のこれが取得したい画像のURLだと思います。 URLで hrefでなく こういう書式で表示されているのだな、と思いますが ここを取得したいと思っております。 すみませんが;宜しくお願い致します; http://mevius.5ch.net/test/read.cgi/tech/1577948214/492
495: デフォルトの名無しさん [sage] 2020/02/06(木) 12:25:05.18 ID:PruBe/51 >>492 他に使ってなさそうで欲しい属性分かってるんだったら elems = html.select('img[data-iurl]') これでよくね あとfirefox10でも47でもないいい加減なUAはやめとけ http://mevius.5ch.net/test/read.cgi/tech/1577948214/495
498: 496 [sage] 2020/02/06(木) 12:45:42.46 ID:/hIhK6yv >>492 Base64 は、HTML でもよく使う Base64の文字列で、PNG/JPEG画像を、HTMLファイルに直接埋め込める <img src="data:image/png;base64,xxxxx..." /> http://mevius.5ch.net/test/read.cgi/tech/1577948214/498
499: 496 [sage] 2020/02/06(木) 12:59:31.10 ID:/hIhK6yv >>492 適切に、1つに限定される、セレクターを作るのが難しい! 以下で、特定できないのか? class="rg_i Q4LuWd tx8vtf" data-iid="0" jsname="Q4LuWd" それか、img 要素の外側で、id など、限定される要素を探すか。 基本的には、idを探さないと特定できない idを振っていない場合は、そのサイト特有のルールを発見しないといけない! 例えば、5ch のスレ内では、id が無いから、 data-id に投稿番号が入っているので、それを使うとか このように、相手のサイトを分析するのが難しい! http://mevius.5ch.net/test/read.cgi/tech/1577948214/499
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.067s