スレ立てるまでもない質問はここで 152匹目

[過去ﾛｸﾞ] スレ立てるまでもない質問はここで 152匹目 (1002ﾚｽ)
上下前次1-新
抽出解除ﾚｽ栞

このｽﾚｯﾄﾞは過去ﾛｸﾞ倉庫に格納されています｡
次ｽﾚ検索歴削→次ｽﾚ栞削→次ｽﾚ過去ﾛｸﾞﾒﾆｭｰ

ﾘﾛｰﾄﾞ規制です｡10分ほどで解除するので､他のﾌﾞﾗｳｻﾞへ避難してください｡

185(1): 2019/12/15(日)06:03 ID:fpSJINfx(1) AAS
ブラウザのキャッシュは、SQLite などのDB に、保存してる。
NoSQL でも良いけど

URL をキーにすれば？

ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。
その日のニュースサイトとか、ランキングサイトとか

だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。
それか内容をハッシュ値に変換して、保存してあるものと比べるとか

クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。
または、ある程度期間を空けたりできる

こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい

ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、
Ajax を使って、動的に内容を読み込むようなものは、取得できない

そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理

186: 2019/12/16(月)03:30 ID:do65I2NN(1) AAS
>>184-185
どうも。
参考になります

上下前次1-新書関写板覧索設栞歴

ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ

ぬこの手ぬこTOP 0.024s