[過去ログ] スレ立てるまでもない質問はここで 152匹目 (1002レス)
前次1-
抽出解除 レス栞

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
リロード規制です。10分ほどで解除するので、他のブラウザへ避難してください。
185
(1): 2019/12/15(日)06:03 ID:fpSJINfx(1) AAS
ブラウザのキャッシュは、SQLite などのDB に、保存してる。
NoSQL でも良いけど

URL をキーにすれば?

ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。
その日のニュースサイトとか、ランキングサイトとか

だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。
それか内容をハッシュ値に変換して、保存してあるものと比べるとか

クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。
または、ある程度期間を空けたりできる

こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい

ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、
Ajax を使って、動的に内容を読み込むようなものは、取得できない

そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理
186: 2019/12/16(月)03:30 ID:do65I2NN(1) AAS
>>184-185
どうも。
参考になります
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ

ぬこの手 ぬこTOP 0.024s