[過去ログ] スレ立てるまでもない質問はここで 152匹目 (1002レス)
上下前次1-新
抽出解除 レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
185(1): 2019/12/15(日)06:03 ID:fpSJINfx(1) AAS
ブラウザのキャッシュは、SQLite などのDB に、保存してる。
NoSQL でも良いけど
URL をキーにすれば?
ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。
その日のニュースサイトとか、ランキングサイトとか
だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。
それか内容をハッシュ値に変換して、保存してあるものと比べるとか
クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。
または、ある程度期間を空けたりできる
こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい
ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、
Ajax を使って、動的に内容を読み込むようなものは、取得できない
そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理
186: 2019/12/16(月)03:30 ID:do65I2NN(1) AAS
>>184-185
どうも。
参考になります
上下前次1-新書関写板覧索設栞歴
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ
ぬこの手 ぬこTOP 0.024s