2ちゃん画像落としまくりスクリプト (294レス)
2ちゃん画像落としまくりスクリプト http://mevius.5ch.net/test/read.cgi/unix/1003833552/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
1: 1 [] 01/10/23 19:39 2ちゃんねるに貼ってある画像リンクを追い、 jpgをかき集めるスクリプトを作ってみました。 http://www.ninnin.net/ ※perlとwgetが必要です。 ※Windows,Macでは動きません。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/1
2: 名無しさん@お腹いっぱい。 [sage] 01/10/23 19:49 windows で perl も wget も動くはずだが。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/2
3: 1 [] 01/10/23 19:50 fork 使ってるからActive perlでは動かないのですよ。 cygwin上なら動くかも(ためしてないけど) http://mevius.5ch.net/test/read.cgi/unix/1003833552/3
4: 1 [] 01/10/23 19:53 追記: MacOS Xなら動きますよ (10.1ならwgetを入れなきゃだめだけど) http://mevius.5ch.net/test/read.cgi/unix/1003833552/4
5: 名無しさん@お腹いっぱい。 [] 01/10/23 19:56 グロ画像コワイヨ(;´д`) http://mevius.5ch.net/test/read.cgi/unix/1003833552/5
6: 1 [] 01/10/23 20:03 例えばモー娘板で 一回スクリプトを実行すると 約800枚の画像が収集できます。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/6
7: 名無しさん@お腹いっぱい。 [sage] 01/10/23 21:11 UNIX板的にはどうかと思うがサンクス1 http://mevius.5ch.net/test/read.cgi/unix/1003833552/7
8: ソースコード読まずにカキコ [sage] 01/10/23 21:15 Σ(゚д゚lll)ガーン アイドル画像板でやったら最初の画像が葉っぱ隊だった しかも何かループしてて同じ画像だけ取ってるっぽい。 42枚しか収集できなかった。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/8
9: UNIX すごい。 [] 01/10/23 21:21 MacOS X ですがやってみました。 こんなこともできるんですね。目からウロコです。 中にはとても重たいサーバーがあるので、可能であれば タイムアウトのパラメータも追加されるとうれしいです。 (30秒以上反応が無かったらスキップして次、など) perl スクリプトとか詳しくないのに勝手言っちゃってすいません。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/9
10: 名無しさん@お腹いっぱい。 [sage] 01/10/23 21:27 cygwinのperlでも動いた。 ただ $down デフォルトは、せめて2くらいに しておいた方が良くないかい? もしくは固定とか。 サーバに申し訳なくて5は指定出来ん。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/10
11: 名無しさん@お腹いっぱい。 [sage] 01/10/23 21:34 mpegも落としたいが.... 醤油みたけど直すのメンドイな http://mevius.5ch.net/test/read.cgi/unix/1003833552/11
12: 名無しさん@お腹いっぱい。 [sage] 01/10/23 22:19 こういうのは自分で書いた方が良さげ。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/12
13: 1 [] 01/10/23 23:39 1です。 >>8 アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。 >>9 wgetのパラメータをいじればできます。現在の設定は2分です。 今後調整します。スクリプトの153行目をいじれば変更もできますよ。 >>10 その通りですね。次回のバージョンから少し下げます。 >>11 73,74,84行目の.jpgを.mpgに変更すればOKなはずです。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/13
14: 名無しさん@お腹いっぱい。 [] 01/10/23 23:44 ガ━━(゚Д゚;)━━ソ! よろこびいさんで半角板いったらなんもなかった http://mevius.5ch.net/test/read.cgi/unix/1003833552/14
15: 名無しさん@お腹いっぱい。 [sage] 01/10/23 23:47 おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう なのでsage進行の方が良いかな…。 ところで、これで落とした画像を閲覧するスクリプトとか、 どうやって作るんだろう? 手動でeeで見てるんだけど、再帰的に .jpgファイルを見るスプリプト?とかありそうなんですが。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/15
16: 名無しさん@XEmacs [] 01/10/24 01:00 やっぱ wget を fork して…ってのはみんな書くのね(笑) ウチの環境だと wget は 2 個くらい fork するのが一番 効率が良かったかなぁ。 # fork しすぎると timeout して、 # まともに取れなかったりして… >15 find ./ -name '*.jpg' -exec display \{\} \; とか? XEmacs の dired も、よく使いますけど。。。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/16
17: 名無しさん@お腹いっぱい。 [sage] 01/10/24 01:08 迷惑画像URLリストとか、どこかにないでしょうか。 フィルタリングしたいですよね。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/17
18: 名無しさん@お腹いっぱい。 [sage] 01/10/24 01:26 find ./ -name '*.jpg' |xargs ElectoricEyes http://mevius.5ch.net/test/read.cgi/unix/1003833552/18
19: 名無しさん@お腹いっぱい。 [sage] 01/10/24 01:36 半角板のDATってどこにあるす? つーか何もないのはおかしいよね。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/19
20: 名無しさん@お腹いっぱい。 [sage] 01/10/24 01:41 >>15 スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん? http://mevius.5ch.net/test/read.cgi/unix/1003833552/20
21: 124 [] 01/10/24 03:03 こんなことができるのは常時接続の人たちですか? http://mevius.5ch.net/test/read.cgi/unix/1003833552/21
22: うひひ [sage] 01/10/24 09:28 >>21 情事切実な人だな。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/22
23: 名無しさん@お腹いっぱい。 [] 01/10/24 10:38 >>19 半角板だと $ita = http://okazu.bbspink.com/ascii/ の設定でOKなはず http://mevius.5ch.net/test/read.cgi/unix/1003833552/23
24: 名無しさん@お腹いっぱい。 [] 01/10/24 13:07 http://とか ttp:// みたいにあえてコピペ用になってる物も 落とせる? http://mevius.5ch.net/test/read.cgi/unix/1003833552/24
25: 名無しさん@お腹いっぱい。 [] 01/10/24 13:28 >>17 同意. でも,迷惑画像っつーのは人によって異なるからね,一概には... 画像分析して妙に赤が多いのはハネるとかは欲しいかも. http://mevius.5ch.net/test/read.cgi/unix/1003833552/25
26: 1 [] 01/10/24 13:59 >>24 むろんOKです。 "ttp://"でひっかけてます。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/26
27: 1 [] 01/10/24 14:01 >>25 その機能はつけたいんですけどね・・・ でも赤くない死体画像もあるし・・・ こういう時に1chのレス評価システムは 使い勝手があるんだな、と感じます http://mevius.5ch.net/test/read.cgi/unix/1003833552/27
28: 名無しさん@XEmacs [] 01/10/24 14:16 半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ プト書いた人居る?漏れは諦めた(w これ、できたら結構凄いよな… http://mevius.5ch.net/test/read.cgi/unix/1003833552/28
29: 名無しさん@お腹いっぱい。 [sage] 01/10/24 23:33 >>28 同意。ぜひ1にはがんばってもらいたい。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/29
30: 名無しさん@Vi [sage] 01/10/25 01:42 たしかに画像フィルタは便利かもしれませんが、 個人的にはこのスクリプトは画像をダイジェストできることに 特化して欲しいです。 できれば追加して欲しい機能 1.URL は違うけどファイル名が同じ場合のファイル処理 2. キーワードを追加( tp:// とか http:// など) 3.スレッドのスキップ(先頭から50個目のスレッドから開始など) 4. いっそのこと MPEG ファイルも対象に。 スレッドのスキップはスクリプトに追加して作ってみました。 もし希望があれば送ります。>1 http://mevius.5ch.net/t
est/read.cgi/unix/1003833552/30
31: 名無しさん@お腹いっぱい。 [sage] 01/10/25 01:59 スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、 落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが どうよ? http://mevius.5ch.net/test/read.cgi/unix/1003833552/31
32: 1 [] 01/10/25 11:38 >>30 ご意見ありがとうございます。 検討して次期バージョンに反映します。 >>31 んーと現在の仕様では、同じファイルの画像が ローカルにあればダウンしないようになっていますので、 毎日同じファイルをダウンしてしまうというのはないです。 ただ落としたファイルのアドレスを記憶とかしてたほうが、 2回目以降の効率は良いですね。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/32
33: 名無しさん@お腹いっぱい。 [] 01/10/26 00:26 コレ使うとスレの荒れ度がわかるね 荒れてるスレは死体画像多い。 あとなぜかペットの画像も多いNE! http://mevius.5ch.net/test/read.cgi/unix/1003833552/33
34: 名無しさん@お腹いっぱい。 [] 01/10/26 05:38 wgetでいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/34
35: 名無しさん@お腹いっぱい。 [] 01/10/26 11:16 >>34 そういう説もある。 ttp://追えないけどね http://mevius.5ch.net/test/read.cgi/unix/1003833552/35
36: 名無しさん@お腹いっぱい。 [sage] 01/10/26 16:55 OSXにwget入れるのに小1時間かかりました。 でも成功、すごいぞUNIX、ありがとう>1 http://mevius.5ch.net/test/read.cgi/unix/1003833552/36
37: 名無しさん@お腹いっぱい。 [sage] 01/10/27 01:20 >32 そっか、俺は落としてきたファイルを 別ディレクトリに移動して整理していたんだが、 そうすると、また同じやつを落としてきてしまうんだな。 死体画像とかも残しておかないと、 また同じ死体画像を落としてきてしまうのだな。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/37
38: 名無しさん@お腹いっぱい。 [] 01/10/27 10:54 >>28 その辺の隠語は限られているから、単純置換じゃダメかな… http://mevius.5ch.net/test/read.cgi/unix/1003833552/38
39: 1 [] 01/10/27 17:44 >>37 死体画像は同じファイル名でダミーのファイルとかを 置くとかすると良いかも・・・ 面倒なのでそのうちその辺もなんとかしたいですね http://mevius.5ch.net/test/read.cgi/unix/1003833552/39
40: 名無しさん@XEmacs [] 01/10/27 20:34 >38 単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、 URLは省略されたりクイズで記述されたりもするので(w http://mevius.5ch.net/test/read.cgi/unix/1003833552/40
41: 名無しさん@お腹いっぱい。 [sage] 01/10/27 20:49 おいおいおいおいおい、2ch内とはいえ下手なスパイダー 動かすのはやめてくれ。転送量も鯖の負荷も増える。 やりたいやつは公開なんかしないで、自分で作ってひっそりと やってくれ。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/41
42: 名無しさん@お腹いっぱい。 [] 01/10/29 19:56 >>41 すいてる時間帯でもダメ? http://mevius.5ch.net/test/read.cgi/unix/1003833552/42
43: 名無しさん@ほっとぞぬ [sage] 01/10/29 23:13 >>42 まず、datファイルをgetして、それを元にすればよいかと思われ。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/43
44: 名無しさん@お腹いっぱい。 [] 01/10/29 23:57 MacOSXの人って結構いるんだなぁ。 そういう漏れも。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/44
45: 名無しさん@お腹いっぱい。 [] 01/10/30 00:12 >>44 俺もMacOS X 最近多いよね。 厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・ http://mevius.5ch.net/test/read.cgi/unix/1003833552/45
46: 名無しさん@お腹いっぱい。 [] 01/10/30 00:27 >>44 >>45 コンソール使う頻度はどれくらいよ? あんまり多いのも、それはそれで考えもんだけど。 一応Macだし。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/46
47: 名無しさん@お腹いっぱい。 [sage] 01/10/30 02:34 >>44-46 スレ違い。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/47
48: 名無しさん@お腹いっぱい。 [] 01/10/30 22:21 同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら 後ろに_01とか付けて保存するのは出来ませんか? http://mevius.5ch.net/test/read.cgi/unix/1003833552/48
49: 1 [] 01/10/31 10:28 >>48 できます。 その方法も考えたのですが、結局やりませんでした。 いらないかな?と思って。 同じような要望が多ければ導入を検討します。 wgetのオプションの中にそんな機能があった気がしますので、 ご自分で改造してみてはいかがでしょう。 $optionsにオプションを突っ込んでwget実行サブルーチンを 呼んでるだけですので。 http://mevius.5ch.net/test/read.cgi/unix/1003833552/49
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 245 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.008s