2ちゃん画像落としまくりスクリプト (294レス)
1-

162
(2): 03/01/06 15:20 AAS
あらほんと。
で、にちゃんの鯖に負担かけないように、前回収得した所からの差分だけ
拾いたいんだけど、どうやるの?
163
(1): 03/01/06 15:24 AAS
うーん、
cgiから差分だけ拾うのと、datを全部拾って差分を調べるのとではどっちがいいんだろ?
てか、dat拾う方がいいんだろうなぁ。作りなおしてみるか。
164
(1): 153 03/01/06 15:42 AAS
AA省
165
(1): 153 03/01/06 15:44 AAS
AA省
166: 153 03/01/06 15:55 AAS
WINDOWSのiriaとか見たいに、帯域制限してダウンロードすることができないか、
は調べたことあるけど、方法が見つからなかった。wgetではできないのでは無いかと思う。
代わりには、-wで制限するか、スクリプトの中にsleepを入れる方法があると思う。

あと画像ファイルを落とすとき、-x と -nc を組み合わせて使ったら、同一のファイルをダウンロードする問題はなくなると思う。

>>158-160の欠点は、あぼーんでlogが詰まったら、不適切なところから、ダウンロードを開始してしまうため、
変なdatファイルを作ってしまう。これは-Nですべてをダウンロードしなおせばいいけど、負荷が増える。

>>163
省2
167
(1): 153 03/01/06 15:59 AAS
>>162
wget -c で増加分をダウンロードできるらしいです。
これは、ダウンロード途中でコネクションが切れたりして、
あとからその続きからダウンロードしたい場合にも使えるようです。
遠くのftpサーバとかに使えます。
168: 03/01/06 16:45 AAS
>>167
さんくすこ。
スレログとらなくても、リンクさえ拾えれば大丈夫だからねぇ、
あぼーんされても大丈夫だと思う。
というわけで、増分だけ拾うようにしますわ。
169
(1): 03/01/06 18:57 AAS
このスレでやるな。
170: 03/01/06 18:59 AAS
>>169
何を?なぜ?
171
(2): 1 03/01/06 19:18 AAS
dat落ちするかとおもったけど
なんかまたあがってきてるんで
ひさびさにバージョンアップしようかな

というか、つかってる人(使う人)とかいるんでしょうか?
172
(2): 03/01/06 21:10 AAS
つくった。
けど、htmlから拾ってるから効率悪いよ。
外部リンク:homepage3.nifty.com
173
(1): 03/01/06 21:15 AAS
>>172
君のPCの時計ずれてない?
174
(1): 03/01/06 21:18 AAS
>>173
え?どこ?
さっき作ったばかりだからおかしいところあったら指摘して〜

>>171
>>1さんキタ━━━━━━(゚∀゚)━━━━━━━!!!!!
175: 03/01/06 21:19 AAS
>>171
つか、使うかどうかより、自分で作ってみるのも楽しいのかも。
1さんのも参考にしたいのでオネガイシマス。
176
(1): 03/01/06 21:21 AAS
>>174
いやこんなんでたから。
ゴミレススマソ。
---
get2ch_v006/get2ch.pl
tar: get2ch_v006/get2ch.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/get2chrc.txt
省5
177: 03/01/06 21:24 AAS
>>176
・・・なんかちょうど1日ずれてるような。
178
(1): 03/01/06 23:34 AAS
て優香、wget使わなければforkしなくていいからActivePerlでも使えるようになるし、
Irvineでも使えばwgetよりはるかに効率的に収集できるし。

あーあ、UNIX板で気付いちゃいけないことに気付いちゃったよ。
179
(2): 03/01/07 10:03 AAS
萌え板を監視するスクリプトも( ゚д゚)ホスィ…
180: 03/01/07 11:41 AAS
>>179
萌え板を監視、って具体的に何できればいいんだ?
と優香、萌え板って何?ファイヤーウォールのこと?
181
(1): 03/01/07 12:52 AAS
>>178
soretteCUI?
182
(2): 179 03/01/07 13:06 AAS
説明不足でした。

こんな感じの掲示板です。
外部リンク[html]:www9.xdsl.ne.jp

萌々ぼ〜どって言うのかな?
ソノテの人の画像アップ掲示板として広く使われてるみたいです。

欲しいのは画像をいっきに落とす・・ですが
できたら全てのページをログも含めてHDに保存できるのが好ましいです。
183: 03/01/07 13:32 AAS
>>182
そうか、wgetの-rオプションだけでは画像アップローダーの
2ページ目以降のがとってこれないのか...
うーむ
184
(1): 03/01/07 14:57 AAS
>>182
なるほど。理解した。
VBスクリプトなら、次のページをめくるボタンを押すスクリプトが簡単に書けるけど、
Perlとかだとどうやってやるんだろ?
185
(2): 03/01/07 14:58 AAS
wgetでpostできるようにするパッチあるよ
外部リンク:pluto.im.uec.ac.jp
CGIを激しく呼び出してアク禁喰らっても知らないけど
186
(1): 03/01/07 15:03 AAS
>>184
cgiを読んだら、POSTを送ることでページをめくるようになってた。
perlだったら直接サーバと繋いで、POSTを直接送ればできるのでは?
または外部リンク[cgi]:hoghogeでページを直接指定して(GETでも)ページを開けるらしい。

ところでwgetでPOSTを送ることってできないよね?(wget厨ですまそ)
187
(1): 186 03/01/07 15:05 AAS
>>185
リロードしたらみました。
すまそ。試してみます。

wget以外でPOSTを簡単に送れるツールを以前どこかで見たことあったけど。。
188: 03/01/07 15:57 AAS
curl使え
189: 03/01/07 17:03 AAS
>>181
Irvineもコマンドラインから使えるけど。
irvine list.txt で、URLリストを入れられる。
cronで回すのでなければ、Win上でやったほうが簡単かも。
190: 03/01/07 19:44 AAS
⊂⌒~⊃。Д。)⊃
191
(1): 03/01/07 21:57 AAS
その萌え萌えなんちゃらってやつな、moemoe.htmlと同じディレクトリにある
moemoe.logってのがログファイルだからそれ落とせ。画像のURLも載ってるから。
CGI叩くのやめれ。
192
(2): 03/01/08 01:46 AAS
>>172
なんかデリられてるみたいなんで差異うpキボンヌ、クレクレ君でスマソ
193
(1): 03/01/08 01:51 AAS
>>187 w3m
194: 03/01/08 09:32 AAS
>>192
ゴメソ。
cgiからゲトーしてるので下手するとアク禁になっちゃうから今消してる。
もうすぐ次バージョンうpするからまってて〜(;´Д`)
195: 03/01/08 14:37 AAS
>>193
それだ!
196
(1): 03/01/08 21:35 AAS
>>192
うpしたよ〜
急いで書いたからちゃんと動くかわからないけど。
197
(1): 03/01/08 21:49 AAS
>>196
さっきの動かなかったから、差し替えますた。
198
(1): 03/01/08 22:46 AAS
>>197
まだ時計がずれてない?(w
勘違いだったらスマソ。

ちょっと読んで気になったのは、
スレッドの差分を取ってくるときのwgetのオプションで-cと-ncの両方を指定しているけど、
これって両方あったらまずくないの?>>165
あと、datファイルを連続してダウンロードしたら、2chの負荷が大きくなってまずいと思うけど..
199
(1): 03/01/08 22:50 AAS
>>198
あらほんと。
-cと-nc一緒に書いちゃってるけど、一応動いてるし、ダウンロードの
速さからして差分だけ落としてるように思ふ。
て優香、汚いソースを丁寧に読んでくれてありが?
datは差分だけ落としてるから連続ダウソも大丈夫かと思ったが、
やっぱヤバイかね?間隔あけた方がいいかな?
200: 03/01/08 22:52 AAS
あと、wgetのダウンロード速度が遅くていらつくんだけど、なんか解決方法
ありませんか?
201
(1): 03/01/08 23:02 AAS
>>199
いや、ちょっとmonazilla関係のスレをよんでたら、
いかにサーバの負荷を減らすかいろいろ考えられていて、
この、datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
やるとしても、負荷の低い時間帯にかなり間隔を開けて行った方が良いかと...

>ダウンロードの
>速さからして差分だけ落としてるように思ふ。
省1
202
(1): 03/01/08 23:16 AAS
>>201
今 -nc消したやつをうpしたよ。
だけど、-nc消したらなんだか速度が遅くなったような・・・
あと、日時がバグってるのはアーカイバーがおかしいらしいことが分かったよ。
だからキニシナーイ

>datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
なるほど。一応スレのレス数見て更新されてるか確認してから各スレの差分をダウソ
省5
203
(1): 03/01/08 23:19 AAS
>>202
速度で判断するより、wgetのログをちゃんと見た方がはっきりするかと...
204: 03/01/08 23:27 AAS
>>203
-ncつけてるやつはログが消えちゃったけど、-nc消したやつのログみたら
全部落としてるみたい・・・鬱
205
(1): 03/01/09 01:58 AAS
(´-`).。oO(画像掲示板から落とした方が簡単なのに、なんでだろう…)
206
(2): 03/01/09 16:19 AAS
こんなのもあったり
外部リンク:j2ch.free-city.net
207
(1): 03/01/09 19:32 AAS
>>205
ソレダ━━━━━━(゚∀゚)━━━━━━━!!!!!
にちゃんねらがよく利用している画像掲示板を巡回すれば、良質なジェイペーグが
集まるよな。
>>206
同一のアドレスがたくさん・・・sortしてuniq通せよな〜、と。
208
(1): 03/01/09 20:05 AAS
>>206
さらに1時間更新とか...
どんなシステムか気になる。

>>207
Windowsでは画像掲示板を巡回して画像をダウンロードするソフトを聞いたことあるけど、
人参収穫か大根収穫とか名前だったか...
まあ、crontabで自動で回してみたい
209
(1): 03/01/09 21:08 AAS
>>208
これか?
人参自動収穫機
外部リンク:ninjinclub.tripod.co.jp
210
(3): 03/01/09 23:41 AAS
この画像掲示板はPOSTじゃないと見れないみたいなんですが、w3m等の
POSTがしゃべれるツールで画像をダウンロードする方法が分からないのですが、
分かる方いらっしゃいませんか?

外部リンク[cgi]:sss.direct.ne.jp
211: 03/01/10 01:23 AAS
>>210
とりあえず>>191の様にログが保存されていないか探してみるとか?
imgboardはデフォルトではfile.dat、fileback.datって名前だったような...
ただ、ログファイル名変えてたり、アクセス権を切っている可能性があるので(俺もだけど)
このばあいは>>209を試してみるとか?
下手にperlでPOSTを送ったりするのはやめた方がいいと思う
212: 03/01/10 01:25 AAS
>>210
てか、右クリック→名前を付けて保存ではいけないのか?
もしくはman w3m
213: 03/01/10 02:00 AAS

214: 03/01/12 14:20 AAS
>>210
上のほうで出てるパッチを当てたwgetだとこんな感じ?

#!/bin/bash
url="外部リンク[cgi]:hoge.com"
img="/hoge/img-box/"
lastpage=10
i=0
省7
215
(1): age2ch.pl 0.03.28 03/01/12 16:20 AAS
保守
216: 03/01/12 23:06 AAS
>>241
普通に
wget "外部リンク[cgi]:hoge.com"
でもいけない?

>>215
それはやめとけ。
下手したら悪禁になるかもしれないらしい
217: 山崎渉 [(^^)sage] 03/01/15 12:59 AAS
(^^)
218
(3): 03/01/24 15:59 AAS
java版を作ってみますた。

外部リンク:gobo.free-city.net

※javaの実行環境が必要です。
※Windows、Macでも動くかも。
219: あぼーん [あぼーん] AAS
あぼーん
220: あぼーん [あぼーん] AAS
あぼーん
221
(1): 03/01/25 17:42 AAS
>>218
ネタでつか?
鯖がみつかりませぬ・・・
222
(1): 218 03/01/26 00:18 AAS
あれ?確かに見つかりませんね...。
って、鯖ごと落ちてる?

昨日まではアクセスできたのにな。今日話題になってるSQLPの影響かなぁ?
223: 03/01/26 00:43 AAS
>>222
ここでは話題になってないのかな・・

外部リンク:dailynews.yahoo.co.jp
224: 218 03/01/26 09:12 AAS
>>221
たった今、鯖が復帰していることを確認しますた。よろしくおながいします。
いちお、間借りしたところは、

The site gobo.free-city.net is running Apache/1.3.27 (Unix) on FreeBSD

なので今回の騒ぎで落ちちゃったわけではなさそうですが。
225: 03/01/31 10:59 AAS
どうやらUAをいじらないとdatファイルを直接getできなくなったらしいが
226: 山崎渉 [(^^)] 03/04/17 12:33 AAS
(^^)
227: あぼーん [あぼーん] AAS
あぼーん
228: 03/04/21 02:09 AAS
↑山崎、必死だな(笑
229: 03/04/28 15:53 AAS
UNIX コマンドだと標準で巡回コマンド付いてきますが、何か?
230: 03/05/06 16:55 AAS
Mac OS 10.2 のターミナルで実行しました
そしたら、
pl {-input <binary_file>} {-output <binary_file>}
Reads ASCII PL from stdin (or serialized file if -input specified)
and writes ASCII PL to stdout (or serialized file if -output)
なんて出ちゃって、もうわかりませぬ
どうかおしえてください。。。
省1
231: あぼーん [あぼーん] AAS
あぼーん
232: 03/06/08 23:39 AAS
おお!
このスレまだ存在してたのか。
息が長いな。
山崎先生のおかげですね。
233
(1): 03/07/08 00:31 AAS
>>185 のページ見れないんですが、引越し先知ってる人います?
234: 03/07/13 19:27 AAS
>>233
とりあえずWayBack Machineで拾えた
235: あぼーん [あぼーん] AAS
あぼーん
236: 03/08/10 04:45 AAS
age?
237: あぼーん [あぼーん] AAS
あぼーん
238: あぼーん [あぼーん] AAS
あぼーん
239: あぼーん 03/11/13 20:55 AAS
あぼーん
240: 03/12/17 05:13 AAS
ホッシュ
241
(1): 03/12/31 10:54 AAS
  
242: 04/01/08 02:45 AAS
あけました おめでとう
1-
あと 52 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.014s