2ちゃん画像落としまくりスクリプト (294レス)
上下前次1-新
96: 01/12/28 12:45 AAS
>>94
確かに間違いでは無いな(笑)
97: [age] 02/01/03 22:48 AAS
age て みた
98: 02/01/16 18:24 AAS
やっぱり前回履歴に対応して欲しいなぁ。
毎日cronで走らせたいヨ。
99: 02/01/16 19:50 AAS
>>92
俺使ってる。でもあれってsymlinkというのは詐欺だろう。
join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確
かな。で、俺が見つけてる不具合は
1.Explorerやインストーラの空き容量計算がmountに対応できてないので、
インストーラで(空きがあっても)「ねーよ」と弾かれたりする
2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ
省8
100: 02/01/17 20:29 AAS
100
101(2): 02/01/17 20:52 AAS
ある板のある日の<a href="...">を一括表示してくれるようなサイトない?
つくろうかな…。
102(1): 02/01/17 21:41 AAS
>>101
作って!
103(1): 02/01/18 09:50 AAS
>102
つくりはじめた。rawmodeを使おうかとも思ったけど、index.htmlをtidyでXHTMLに
変換してからXSLTで加工(XHTML to XML)して、XMLで日別にサーバ側に蓄積して、
CGIでXML選んでXSLTかまして(XML to HTML4)出力、みたいな感じにすることにした。
なんとなく。
とりあえず最初のXSLTまで書けましたわ。
104: 02/01/21 06:03 AAS
age
105(1): [age] 02/01/24 01:14 AAS
>103
すばらしいあげ
106(5): 101 02/01/24 01:24 AAS
>>105
ども。マ板でもちょっと書いたんだけど、できました。
2ちゃんねるの 技術系/ニュース系 板の、URL流し読みサイト。
これ 外部リンク:moso.borogrammers.net なんだけどどうかしら?
表示例↓
外部リンク[cgi]:moso.borogrammers.net
107: 02/01/28 19:58 AAS
祭り監視に良いNE >>106
108: 02/01/29 00:24 AAS
>>106
面白いね
ちょっと遊んでみるよ
でもsage
109(1): 02/02/05 14:13 AAS
スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
110: 109 02/02/05 14:29 AAS
あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
視点の移動が少なくて良いんじゃないかと思います。
111(1): 02/02/13 16:26 AAS
.datの形式変わった?
112(1): 106 02/02/21 05:48 AAS
本業でヘロヘロになってました。109さんご意見どうも。
>スレがばらばらに表示されるので、日付順、スレ順などのソートがあると嬉しいです。
トップ画面に「発言日が最近のURLほど上に表示する」と「スレッド番号+発言番号
でソートして表示する」というラジオボタンをつけました。
>あと、大量のリストを眺める作業になるので、スレタイトルは左揃えにしたほうが
>視点の移動が少なくて良いんじゃないかと思います。
確かにそうですね。左揃えにしました。スレッドでソートした場合、かなり見易くなったの
省2
113(1): 106 02/02/21 05:50 AAS
新しい表示例:
外部リンク[cgi]:moso.borogrammers.net
114: 02/02/22 18:48 AAS
>>113のURLはなんか妙な表示になる気もするけど、良くなったと思います。
てーか誰か画面のデザインしてやれ。地味すぎるよ
115: 02/02/22 19:20 AAS
>>111
datは>>106のviewerには無関係と思われ
116(3): 02/02/28 00:07 AAS
>>1のスクリプトは、いまや改造しないとそのままでは使えないですね。
117(2): 02/03/01 20:10 AAS
>>116
改造キボンヌ
118: 02/03/01 23:30 AAS
>>116,117
2ch のシステムはよく知らないんだけど現在では subject.txt と .dat
は直接見れないんだよね? read.cgi から raw モードで取得するのかな。
その辺りを書き換えればオッケー。
119: 02/03/02 11:08 AAS
monazilla ML 入るが吉。
120: 02/03/03 19:05 AAS
使えなくなってるね…
121: 116 02/03/04 00:04 AAS
>>117
118が書いてるように、今は $ita/subject.txt が見られないようだから、
まずオリジナルスクリプトの subject.txt は subback.html にでも
しないといけない。
また、subback.html を参照するようにしたら、データナンバーの取り出し方も
変えないといけないね。いろいろなやり方があるだろうが、例えば
外部リンク[html]:love.2ch.net
省16
122: 02/03/06 22:47 AAS
>>1 のサイト、アクセスできなかったんですけど
件のスクリプトを落とせるところは他にありませんか
123: 02/04/12 23:09 AAS
124(1): 02/04/12 23:18 AAS
wgetでダウンロードしたファイルを
ダウンロードしたYYYYMMDDという形式で
保存するにはどうすればいいのでしょう。
同じ名前でファイルが毎週更新されるので
cronでそのままで回すのでは上書きされて
しまいます。
125(1): 名無しさん@Emacs 02/04/12 23:53 AAS
% wget 画像リンク[jpg]:xxx.xxx.xxx -P `date +%y%m%d`
ってのはダメ?
大量に引っこ抜くならこれでいいと思うけど。
126: login:Penguin 02/04/13 00:12 AAS
-O --output-document=FILE FILE に文書を出力します。
127(2): 02/04/13 00:25 AAS
>>125
> ってのはダメ?
それでもかまわないのですがファイルは1つなので
ディレクトリは作らずYYYYMMDD.jpgというファイル名
で保存したいのですが。
128(2): 名無しさん@Emacs 02/04/13 01:00 AAS
>>128
% wget 画像リンク[jpg]:xxx.xxx.xxx -O `date +%Y%m%d`.jpg
(´-`).。oO(>>127 がすでに答えてくれているけど…なんでだろう?)
129: 02/04/13 08:00 AAS
>>128
> (´-`).。oO(>>127 がすでに答えてくれているけど…なんでだろう?)
あの書き込みはヒントだったのですね。
ドキュメントと書いてあったので他の事かと思っていました。
ありがとう。>>ALL
130: 02/04/20 06:10 AAS
ほしゅ
131: 02/04/23 23:12 AAS
捕手
132: 02/05/18 17:53 AAS
なんとなく
133: 02/06/07 18:24 AAS
ほしゅ
134: 02/06/28 02:33 AAS
どるどれい?
135: 02/08/04 21:09 AAS
sage
136: 02/08/20 04:23 AAS
おーい
137: 02/09/18 00:15 AAS
ある日付以降の書きこみに書かれているURLのみを
落としたいとかできるでしょうか?
138: 02/09/22 00:52 AAS
あげとこう
139: 02/09/22 01:29 AAS
さげとこう
140(1): 02/09/23 04:14 AAS
一個のディレクトリに画像ファイル1400個置いてますが
gimvでみるときに極端に速度が遅いです
数が多いとよくないんですね
どーにかなりませんか?
141: 02/09/23 04:40 AAS
何が悪いかをつきとめて、それを直す。
142(2): 02/09/24 19:52 AAS
>>140
UNIXのファイルシステムは
一つのディレクトリにファイルがいっぱいあると遅いと
聞いたことがあるな
(だからメールキューは複数のディレクトリに分かれてるらしい)
1400個くらいなら関係ないのかもしれんけどね
詳しい人フォローレスたのむ
143: 02/09/26 07:34 AAS
>142
(だから2chのスレッドは足切り制限があるらしい)
(1つの板に数千のスレがあった時代は重かったなぁ…)
脱線スマソ
144: 02/12/26 04:11 AAS
age
145: 02/12/29 07:42 AAS
うーん、誰も保守しようとか言う気はないの?
ないよね。
146: 02/12/29 13:31 AAS
>>142
ext2fsやオリジナルのufsは遅いが、たとえばufsでもUFS_DIRHASH入りものなら速い。
xfsあたりなら、なんもせんと速い。
結論: OSと、選んだファイルシステムによる。
147(1): 02/12/31 08:23 AAS
チョトおしえてください。
IEからなら
2chスレ:unix
が見えるんですけど、wgetを使ってこのページをダウンロードしようとしても、
できないんです。どうやればいいんですか?
148: 02/12/31 12:33 AAS
wget 2chスレ:unix
でできるが…?
149: 03/01/01 12:43 AAS
て優香、wget使わなくても、httpget使えば便利じゃない?
と思って、httpget落とそうとしたけど、内部エラーで落とせない・・・
外部リンク:www.onicos.com
150(1): 03/01/04 16:37 AAS
>>1さんが作ったやつをちと効率的に収集できるように改造したけど、
どっかにうpしようかな?
151(1): 03/01/05 05:23 AAS
どうせやるなら、以前にもちょっと話出てたけど、一人が落としたファイルをどっかの鯖に
キャッシュしといて他の人はそっちから落とせるようなの作ろうよ。そうすれば2ちゃんの
負荷も減るし、うpろだの負荷も減るし、ソッコーで消されたファイルもキャッシュに残って
るしで、うっはうはーじゃん。
152: 03/01/05 07:33 AAS
どうせなら落としたファイルがP2Pで共有されるようにするとか
153(10): 03/01/05 18:40 AAS
>>147
普通はdatファイルを直接落とそうとするのでは無いの?
>>151
それやろうかな...
今はdatファイルを貯めているんだけど。
154(1): 03/01/06 00:20 AAS
>>150
複数ファイル(.mpgとか.rmとかの動画)も同時に落せるヤシキモンヌ
155: 03/01/06 01:01 AAS
>>154
もちろんそういう仕様にしてあるよ。てかできたけど。
けどrm,ramはすっかりわすれてたというか、そんなのにちゃんで見たことないのだが。
156(2): 03/01/06 03:14 AAS
>>153
て優香、datファイルを落とせるならそうしたいんだけど、やりかた
教えてーな。
たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
htmlをそのまま落としてマッチングしてるんだけど・・・
157: 153 03/01/06 14:02 AAS
>>156
2chスレ:unix
だったら
2chスレ:unix
でいけるのではないと?
>たしかどっかでdatファイルは落とせなくなったとか聞いたような気がしたんで、
>htmlをそのまま落としてマッチングしてるんだけど・・・
省3
158(1): 153 03/01/06 14:51 AAS
>>156
とりあえず、俺の作ったdatファイルだけ落とすスクリプトも張っておこう。
粗末なシェルスクリプトだが...
#!/bin/sh
PATH=/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin
DATE=`date +%Y%m%d_%H%M%S`
if [ "$1" ] && [ "$2" ] && [ "$3" ] && [ "$4" ] ;then
省16
159(1): 153 03/01/06 14:52 AAS
# -c tuchuukara
# -N time stamp
WGETFLAG="-t 3 -a${LOGFILE} -P./dat -U "Hogella/1.0" -nd $6"
if ! [ -d ${HOMEDIR}/${DIR} ] ;then
echo ${HOMEDIR}/${DIR} no such directry\!
exit
fi
省10
160(1): 153 03/01/06 14:52 AAS
elif [ ${TARGET} = dat ];then
echo "---> DATE = ${DATE}"
mkdir old_dat/${DATE}
rm -f subject.txt
wget -a${LOGFILE} http://${HOST}/${ITA}/subject.txt
echo "---> got subject file"
sleep 1
省21
161: 153 03/01/06 14:55 AAS
HOMEDIR=/home/hoge/documents/data
を適当に書き換えて
mkdir $HOMEDIR/test-dir
./get.sh dat test-dir pc.2ch.net unix 3
で使えると思う(freebsd以外は不明)。
2度目からは
./get.sh dat test-dir pc.2ch.net unix 3 -c
省1
162(2): 03/01/06 15:20 AAS
あらほんと。
で、にちゃんの鯖に負担かけないように、前回収得した所からの差分だけ
拾いたいんだけど、どうやるの?
163(1): 03/01/06 15:24 AAS
うーん、
cgiから差分だけ拾うのと、datを全部拾って差分を調べるのとではどっちがいいんだろ?
てか、dat拾う方がいいんだろうなぁ。作りなおしてみるか。
164(1): 153 03/01/06 15:42 AAS
AA省
165(1): 153 03/01/06 15:44 AAS
AA省
166: 153 03/01/06 15:55 AAS
WINDOWSのiriaとか見たいに、帯域制限してダウンロードすることができないか、
は調べたことあるけど、方法が見つからなかった。wgetではできないのでは無いかと思う。
代わりには、-wで制限するか、スクリプトの中にsleepを入れる方法があると思う。
あと画像ファイルを落とすとき、-x と -nc を組み合わせて使ったら、同一のファイルをダウンロードする問題はなくなると思う。
>>158-160の欠点は、あぼーんでlogが詰まったら、不適切なところから、ダウンロードを開始してしまうため、
変なdatファイルを作ってしまう。これは-Nですべてをダウンロードしなおせばいいけど、負荷が増える。
>>163
省2
167(1): 153 03/01/06 15:59 AAS
>>162
wget -c で増加分をダウンロードできるらしいです。
これは、ダウンロード途中でコネクションが切れたりして、
あとからその続きからダウンロードしたい場合にも使えるようです。
遠くのftpサーバとかに使えます。
168: 03/01/06 16:45 AAS
>>167
さんくすこ。
スレログとらなくても、リンクさえ拾えれば大丈夫だからねぇ、
あぼーんされても大丈夫だと思う。
というわけで、増分だけ拾うようにしますわ。
169(1): 03/01/06 18:57 AAS
このスレでやるな。
170: 03/01/06 18:59 AAS
>>169
何を?なぜ?
171(2): 1 03/01/06 19:18 AAS
dat落ちするかとおもったけど
なんかまたあがってきてるんで
ひさびさにバージョンアップしようかな
というか、つかってる人(使う人)とかいるんでしょうか?
172(2): 03/01/06 21:10 AAS
つくった。
けど、htmlから拾ってるから効率悪いよ。
外部リンク:homepage3.nifty.com
173(1): 03/01/06 21:15 AAS
>>172
君のPCの時計ずれてない?
174(1): 03/01/06 21:18 AAS
>>173
え?どこ?
さっき作ったばかりだからおかしいところあったら指摘して〜
>>171
>>1さんキタ━━━━━━(゚∀゚)━━━━━━━!!!!!
175: 03/01/06 21:19 AAS
>>171
つか、使うかどうかより、自分で作ってみるのも楽しいのかも。
1さんのも参考にしたいのでオネガイシマス。
176(1): 03/01/06 21:21 AAS
>>174
いやこんなんでたから。
ゴミレススマソ。
---
get2ch_v006/get2ch.pl
tar: get2ch_v006/get2ch.pl: time stamp Jan 7 21:00 2003 is 85213 s in the future
get2ch_v006/get2chrc.txt
省5
上下前次1-新書関写板覧索設栞歴
あと 118 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.020s