[過去ログ]
スレ立てるまでもない質問はここで 152匹目 (1002レス)
スレ立てるまでもない質問はここで 152匹目 http://mevius.5ch.net/test/read.cgi/tech/1573214616/
上
下
前次
1-
新
通常表示
512バイト分割
レス栞
抽出解除
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
リロード規制
です。10分ほどで解除するので、
他のブラウザ
へ避難してください。
185: デフォルトの名無しさん [sage] 2019/12/15(日) 06:03:34 ID:fpSJINfx ブラウザのキャッシュは、SQLite などのDB に、保存してる。 NoSQL でも良いけど URL をキーにすれば? ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。 その日のニュースサイトとか、ランキングサイトとか だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。 それか内容をハッシュ値に変換して、保存してあるものと比べるとか クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。 または、ある程度期間を空けたりできる こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、 Ajax を使って、動的に内容を読み込むようなものは、取得できない そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理 http://mevius.5ch.net/test/read.cgi/tech/1573214616/185
186: デフォルトの名無しさん [] 2019/12/16(月) 03:30:33 ID:do65I2NN >>184-185 どうも。 参考になります http://mevius.5ch.net/test/read.cgi/tech/1573214616/186
メモ帳
(0/65535文字)
上
下
前次
1-
新
書
関
写
板
覧
索
設
栞
歴
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.047s