[過去ログ]
スレ立てるまでもない質問はここで 152匹目 (1002レス)
スレ立てるまでもない質問はここで 152匹目 http://mevius.5ch.net/test/read.cgi/tech/1573214616/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
このスレッドは過去ログ倉庫に格納されています。
次スレ検索
歴削→次スレ
栞削→次スレ
過去ログメニュー
185: デフォルトの名無しさん [sage] 2019/12/15(日) 06:03:34 ID:fpSJINfx ブラウザのキャッシュは、SQLite などのDB に、保存してる。 NoSQL でも良いけど URL をキーにすれば? ただ、HTML は動的に内容を読み込むものは、内容が毎回異なる。 その日のニュースサイトとか、ランキングサイトとか だから、クローリングした日時やダウンロードした日時も、保存しておけばよい。 それか内容をハッシュ値に変換して、保存してあるものと比べるとか クローリングした日時が保存してあれば、同じURL をクローリングしなくて済む。 または、ある程度期間を空けたりできる こういう高機能なものは、Ruby のAnemone などのアプリを探した方がよい ただし、Anemoneでも、5ch のように最初に、空のHTMLを送ってきてから、 Ajax を使って、動的に内容を読み込むようなものは、取得できない そういうページは、Selenium WebDriver で、ブラウザを自動操作しないと無理 http://mevius.5ch.net/test/read.cgi/tech/1573214616/185
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 817 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.010s