2ちゃん画像落としまくりスクリプト (294レス)
1-

129: 02/04/13 08:00 AAS
>>128

> (´-`).。oO(>>127 がすでに答えてくれているけど…なんでだろう?)

あの書き込みはヒントだったのですね。
ドキュメントと書いてあったので他の事かと思っていました。
ありがとう。>>ALL
130: 02/04/20 06:10 AAS
ほしゅ
131: 02/04/23 23:12 AAS
捕手
132: 02/05/18 17:53 AAS
なんとなく
133: 02/06/07 18:24 AAS
ほしゅ
134: 02/06/28 02:33 AAS
どるどれい?
135: 02/08/04 21:09 AAS
sage
136: 02/08/20 04:23 AAS
おーい
137: 02/09/18 00:15 AAS
ある日付以降の書きこみに書かれているURLのみを
落としたいとかできるでしょうか?
138: 02/09/22 00:52 AAS
あげとこう
139: 02/09/22 01:29 AAS
さげとこう
140
(1): 02/09/23 04:14 AAS
一個のディレクトリに画像ファイル1400個置いてますが
gimvでみるときに極端に速度が遅いです
数が多いとよくないんですね
どーにかなりませんか?
141: 02/09/23 04:40 AAS
何が悪いかをつきとめて、それを直す。
142
(2): 02/09/24 19:52 AAS
>>140
UNIXのファイルシステムは
一つのディレクトリにファイルがいっぱいあると遅いと
聞いたことがあるな
(だからメールキューは複数のディレクトリに分かれてるらしい)

1400個くらいなら関係ないのかもしれんけどね
詳しい人フォローレスたのむ
143: 02/09/26 07:34 AAS
>142
(だから2chのスレッドは足切り制限があるらしい)
(1つの板に数千のスレがあった時代は重かったなぁ…)
脱線スマソ
144: 02/12/26 04:11 AAS
age
145: 02/12/29 07:42 AAS
うーん、誰も保守しようとか言う気はないの?

ないよね。
146: 02/12/29 13:31 AAS
>>142
ext2fsやオリジナルのufsは遅いが、たとえばufsでもUFS_DIRHASH入りものなら速い。
xfsあたりなら、なんもせんと速い。

結論: OSと、選んだファイルシステムによる。
147
(1): 02/12/31 08:23 AAS
チョトおしえてください。
IEからなら
2chスレ:unix
が見えるんですけど、wgetを使ってこのページをダウンロードしようとしても、
できないんです。どうやればいいんですか?
148: 02/12/31 12:33 AAS
wget 2chスレ:unix
でできるが…?
149: 03/01/01 12:43 AAS
て優香、wget使わなくても、httpget使えば便利じゃない?
と思って、httpget落とそうとしたけど、内部エラーで落とせない・・・
外部リンク:www.onicos.com
150
(1): 03/01/04 16:37 AAS
>>1さんが作ったやつをちと効率的に収集できるように改造したけど、
どっかにうpしようかな?
151
(1): 03/01/05 05:23 AAS
どうせやるなら、以前にもちょっと話出てたけど、一人が落としたファイルをどっかの鯖に
キャッシュしといて他の人はそっちから落とせるようなの作ろうよ。そうすれば2ちゃんの
負荷も減るし、うpろだの負荷も減るし、ソッコーで消されたファイルもキャッシュに残って
るしで、うっはうはーじゃん。
152: 03/01/05 07:33 AAS
どうせなら落としたファイルがP2Pで共有されるようにするとか
153
(10): 03/01/05 18:40 AAS
>>147
普通はdatファイルを直接落とそうとするのでは無いの?

>>151
それやろうかな...
今はdatファイルを貯めているんだけど。
154
(1): 03/01/06 00:20 AAS
>>150

複数ファイル(.mpgとか.rmとかの動画)も同時に落せるヤシキモンヌ
155: 03/01/06 01:01 AAS
>>154
もちろんそういう仕様にしてあるよ。てかできたけど。
けどrm,ramはすっかりわすれてたというか、そんなのにちゃんで見たことないのだが。
156
(2): 03/01/06 03:14 AAS
>>153
て優香、datファイルを落とせるならそうしたいんだけど、やりかた
教えてーな。
たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
htmlをそのまま落としてマッチングしてるんだけど・・・
157: 153 03/01/06 14:02 AAS
>>156
2chスレ:unix
だったら
2chスレ:unix
でいけるのではないと?

>たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
>htmlをそのまま落としてマッチングしてるんだけど・・・
省3
158
(1): 153 03/01/06 14:51 AAS
>>156
とりあえず、俺の作ったdatファイルだけ落とすスクリプトも張っておこう。
粗末なシェルスクリプトだが...

#!/bin/sh

PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin
DATE=`date +%Y%m%d_%H%M%S`

if [ "$1" ] && [ "$2" ] && [ "$3" ] && [ "$4" ] ;then
省16
159
(1): 153 03/01/06 14:52 AAS
# -c tuchuukara
# -N time stamp
WGETFLAG="-t 3 -a${LOGFILE} -P./dat -U "Hogella/1.0" -nd $6"

if ! [ -d ${HOMEDIR}/${DIR} ] ;then
echo ${HOMEDIR}/${DIR} no such directry\!
exit
fi
省10
160
(1): 153 03/01/06 14:52 AAS
elif [ ${TARGET} = dat ];then
echo "---> DATE = ${DATE}"
mkdir old_dat/${DATE}

rm -f subject.txt
wget -a${LOGFILE} http://${HOST}/${ITA}/subject.txt
echo "---> got subject file"
sleep 1
省21
161: 153 03/01/06 14:55 AAS
HOMEDIR=/home/hoge/documents/data
を適当に書き換えて
mkdir $HOMEDIR/test-dir
./get.sh dat test-dir pc.2ch.net unix 3
で使えると思う(freebsd以外は不明)。
2度目からは
./get.sh dat test-dir pc.2ch.net unix 3 -c
省1
162
(2): 03/01/06 15:20 AAS
あらほんと。
で、にちゃんの鯖に負担かけないように、前回収得した所からの差分だけ
拾いたいんだけど、どうやるの?
163
(1): 03/01/06 15:24 AAS
うーん、
cgiから差分だけ拾うのと、datを全部拾って差分を調べるのとではどっちがいいんだろ?
てか、dat拾う方がいいんだろうなぁ。作りなおしてみるか。
164
(1): 153 03/01/06 15:42 AAS
AA省
165
(1): 153 03/01/06 15:44 AAS
AA省
166: 153 03/01/06 15:55 AAS
WINDOWSのiriaとか見たいに、帯域制限してダウンロードすることができないか、
は調べたことあるけど、方法が見つからなかった。wgetではできないのでは無いかと思う。
代わりには、-wで制限するか、スクリプトの中にsleepを入れる方法があると思う。

あと画像ファイルを落とすとき、-x と -nc を組み合わせて使ったら、同一のファイルをダウンロードする問題はなくなると思う。

>>158-160の欠点は、あぼーんでlogが詰まったら、不適切なところから、ダウンロードを開始してしまうため、
変なdatファイルを作ってしまう。これは-Nですべてをダウンロードしなおせばいいけど、負荷が増える。

>>163
省2
167
(1): 153 03/01/06 15:59 AAS
>>162
wget -c で増加分をダウンロードできるらしいです。
これは、ダウンロード途中でコネクションが切れたりして、
あとからその続きからダウンロードしたい場合にも使えるようです。
遠くのftpサーバとかに使えます。
168: 03/01/06 16:45 AAS
>>167
さんくすこ。
スレログとらなくても、リンクさえ拾えれば大丈夫だからねぇ、
あぼーんされても大丈夫だと思う。
というわけで、増分だけ拾うようにしますわ。
169
(1): 03/01/06 18:57 AAS
このスレでやるな。
170: 03/01/06 18:59 AAS
>>169
何を?なぜ?
171
(2): 1 03/01/06 19:18 AAS
dat落ちするかとおもったけど
なんかまたあがってきてるんで
ひさびさにバージョンアップしようかな

というか、つかってる人(使う人)とかいるんでしょうか?
172
(2): 03/01/06 21:10 AAS
つくった。
けど、htmlから拾ってるから効率悪いよ。
外部リンク:homepage3.nifty.com
173
(1): 03/01/06 21:15 AAS
>>172
君のPCの時計ずれてない?
174
(1): 03/01/06 21:18 AAS
>>173
え?どこ?
さっき作ったばかりだからおかしいところあったら指摘して〜

>>171
>>1さんキタ━━━━━━(゚∀゚)━━━━━━━!!!!!
175: 03/01/06 21:19 AAS
>>171
つか、使うかどうかより、自分で作ってみるのも楽しいのかも。
1さんのも参考にしたいのでオネガイシマス。
176
(1): 03/01/06 21:21 AAS
>>174
いやこんなんでたから。
ゴミレススマソ。
---
get2ch_v006/get2ch.pl
tar: get2ch_v006/get2ch.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/get2chrc.txt
省5
177: 03/01/06 21:24 AAS
>>176
・・・なんかちょうど1日ずれてるような。
178
(1): 03/01/06 23:34 AAS
て優香、wget使わなければforkしなくていいからActivePerlでも使えるようになるし、
Irvineでも使えばwgetよりはるかに効率的に収集できるし。

あーあ、UNIX板で気付いちゃいけないことに気付いちゃったよ。
179
(2): 03/01/07 10:03 AAS
萌え板を監視するスクリプトも( ゚д゚)ホスィ…
180: 03/01/07 11:41 AAS
>>179
萌え板を監視、って具体的に何できればいいんだ?
と優香、萌え板って何?ファイヤーウォールのこと?
181
(1): 03/01/07 12:52 AAS
>>178
soretteCUI?
182
(2): 179 03/01/07 13:06 AAS
説明不足でした。

こんな感じの掲示板です。
外部リンク[html]:www9.xdsl.ne.jp

萌々ぼ〜どって言うのかな?
ソノテの人の画像アップ掲示板として広く使われてるみたいです。

欲しいのは画像をいっきに落とす・・ですが
できたら全てのページをログも含めてHDに保存できるのが好ましいです。
183: 03/01/07 13:32 AAS
>>182
そうか、wgetの-rオプションだけでは画像アップローダーの
2ページ目以降のがとってこれないのか...
うーむ
184
(1): 03/01/07 14:57 AAS
>>182
なるほど。理解した。
VBスクリプトなら、次のページをめくるボタンを押すスクリプトが簡単に書けるけど、
Perlとかだとどうやってやるんだろ?
185
(2): 03/01/07 14:58 AAS
wgetでpostできるようにするパッチあるよ
外部リンク:pluto.im.uec.ac.jp
CGIを激しく呼び出してアク禁喰らっても知らないけど
186
(1): 03/01/07 15:03 AAS
>>184
cgiを読んだら、POSTを送ることでページをめくるようになってた。
perlだったら直接サーバと繋いで、POSTを直接送ればできるのでは?
または外部リンク[cgi]:hoghogeでページを直接指定して(GETでも)ページを開けるらしい。

ところでwgetでPOSTを送ることってできないよね?(wget厨ですまそ)
187
(1): 186 03/01/07 15:05 AAS
>>185
リロードしたらみました。
すまそ。試してみます。

wget以外でPOSTを簡単に送れるツールを以前どこかで見たことあったけど。。
188: 03/01/07 15:57 AAS
curl使え
189: 03/01/07 17:03 AAS
>>181
Irvineもコマンドラインから使えるけど。
irvine list.txt で、URLリストを入れられる。
cronで回すのでなければ、Win上でやったほうが簡単かも。
190: 03/01/07 19:44 AAS
⊂⌒~⊃。Д。)⊃
191
(1): 03/01/07 21:57 AAS
その萌え萌えなんちゃらってやつな、moemoe.htmlと同じディレクトリにある
moemoe.logってのがログファイルだからそれ落とせ。画像のURLも載ってるから。
CGI叩くのやめれ。
192
(2): 03/01/08 01:46 AAS
>>172
なんかデリられてるみたいなんで差異うpキボンヌ、クレクレ君でスマソ
193
(1): 03/01/08 01:51 AAS
>>187 w3m
194: 03/01/08 09:32 AAS
>>192
ゴメソ。
cgiからゲトーしてるので下手するとアク禁になっちゃうから今消してる。
もうすぐ次バージョンうpするからまってて〜(;´Д`)
195: 03/01/08 14:37 AAS
>>193
それだ!
196
(1): 03/01/08 21:35 AAS
>>192
うpしたよ〜
急いで書いたからちゃんと動くかわからないけど。
197
(1): 03/01/08 21:49 AAS
>>196
さっきの動かなかったから、差し替えますた。
198
(1): 03/01/08 22:46 AAS
>>197
まだ時計がずれてない?(w
勘違いだったらスマソ。

ちょっと読んで気になったのは、
スレッドの差分を取ってくるときのwgetのオプションで-cと-ncの両方を指定しているけど、
これって両方あったらまずくないの?>>165
あと、datファイルを連続してダウンロードしたら、2chの負荷が大きくなってまずいと思うけど..
199
(1): 03/01/08 22:50 AAS
>>198
あらほんと。
-cと-nc一緒に書いちゃってるけど、一応動いてるし、ダウンロードの
速さからして差分だけ落としてるように思ふ。
て優香、汚いソースを丁寧に読んでくれてありが?
datは差分だけ落としてるから連続ダウソも大丈夫かと思ったが、
やっぱヤバイかね?間隔あけた方がいいかな?
200: 03/01/08 22:52 AAS
あと、wgetのダウンロード速度が遅くていらつくんだけど、なんか解決方法
ありませんか?
201
(1): 03/01/08 23:02 AAS
>>199
いや、ちょっとmonazilla関係のスレをよんでたら、
いかにサーバの負荷を減らすかいろいろ考えられていて、
この、datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
やるとしても、負荷の低い時間帯にかなり間隔を開けて行った方が良いかと...

>ダウンロードの
>速さからして差分だけ落としてるように思ふ。
省1
202
(1): 03/01/08 23:16 AAS
>>201
今 -nc消したやつをうpしたよ。
だけど、-nc消したらなんだか速度が遅くなったような・・・
あと、日時がバグってるのはアーカイバーがおかしいらしいことが分かったよ。
だからキニシナーイ

>datファイルを総ざらいするのも極力避けた方がいいかと思ってきた。
なるほど。一応スレのレス数見て更新されてるか確認してから各スレの差分をダウソ
省5
203
(1): 03/01/08 23:19 AAS
>>202
速度で判断するより、wgetのログをちゃんと見た方がはっきりするかと...
204: 03/01/08 23:27 AAS
>>203
-ncつけてるやつはログが消えちゃったけど、-nc消したやつのログみたら
全部落としてるみたい・・・鬱
205
(1): 03/01/09 01:58 AAS
(´-`).。oO(画像掲示板から落とした方が簡単なのに、なんでだろう…)
206
(2): 03/01/09 16:19 AAS
こんなのもあったり
外部リンク:j2ch.free-city.net
207
(1): 03/01/09 19:32 AAS
>>205
ソレダ━━━━━━(゚∀゚)━━━━━━━!!!!!
にちゃんねらがよく利用している画像掲示板を巡回すれば、良質なジェイペーグが
集まるよな。
>>206
同一のアドレスがたくさん・・・sortしてuniq通せよな〜、と。
208
(1): 03/01/09 20:05 AAS
>>206
さらに1時間更新とか...
どんなシステムか気になる。

>>207
Windowsでは画像掲示板を巡回して画像をダウンロードするソフトを聞いたことあるけど、
人参収穫か大根収穫とか名前だったか...
まあ、crontabで自動で回してみたい
209
(1): 03/01/09 21:08 AAS
>>208
これか?
人参自動収穫機
外部リンク:ninjinclub.tripod.co.jp
1-
あと 85 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.015s