[過去ログ] 【.htaccess】読みこみできない【規制作戦】 (1001レス)
1-

このスレッドは過去ログ倉庫に格納されています。
次スレ検索 歴削→次スレ 栞削→次スレ 過去ログメニュー
559: FOX ★ 04/05/31 16:45 ID:??? AAS
>>556
ふむふむ
その場合は自動化するのはどうやってやれはせいいんですかねぇ?

IP -> robot.txt の自動生成は簡単なの?
560
(3): 動け動けウゴウゴ2ちゃんねる 04/05/31 16:49 ID:W0e8b8Z7(2/3) AAS
今やっているような個人・団体のIPアドレス弾きにはrobots.txtは効果ないと思う。
あれはあくまで検索エンジンのロボットを弾くためのものだから。
561
(3): ひろゆき ◆3SHRUNYAXA 04/05/31 16:51 ID:+a3NVc0S(4/7) AAS
>>560さんに同意。
562
(2): 動け動けウゴウゴ2ちゃんねる 04/05/31 16:55 ID:R1jQrsrR(1) AAS
>>561
つまり
検索エンジンは基本的にOK、だけど負荷かけたら弾くよ
って管理ポリシーって事ですな。
563: 動け動けウゴウゴ2ちゃんねる 04/05/31 16:56 ID:EX3viIa5(4/12) AAS
>>560
そね。期待を持たせる紛らわしい書き方だったかも。すみません。

抽出や自動化のどのへんがネックになってるのかがイマイチわかんないので、
外野から手助けやヒントをしてあげたくてもなかなか難しいのではないかと…
膨大なログから「何か」やって>>543を作ってる、というとこしかわからないわけですし。
手順やスクリプトは公開してもまずいことは無いんじゃないですかね。
564: 動け動けウゴウゴ2ちゃんねる 04/05/31 16:56 ID:H9FCybO3(2/4) AAS
robots.txtを置く

ロボットさんのアクセスがなくなる

他の人たちのパーセンテージが(ちょっと)上がる

(゚д゚)ウマー
565: FOX ★ 04/05/31 16:57 ID:??? AAS
あと、即効性が要求されるんですよねぇ
566: 動け動けウゴウゴ2ちゃんねる 04/05/31 17:00 ID:Z4tHhP2M(1/2) AAS
>>562
というか、単にGoogleあたりを避けるつもりでrobots.txtを置いてしまうと

 「robots.txtを素直に読んでしまって入ってこれなくなる機械の体の人がいるのでマズい」

からなのではないかと(w
567
(1): [―{}@{}@{}-] ux02.so-net.ne.jpn 04/05/31 17:00 ID:D3FZv0gH(1/6) AAS
>>556
>robots.txtを避ける理由ないと思うし。
robots.txtを見るのはクライアント側の任意(見ない場合もあるのでスクリプトには無意味)
.htaccessは鯖側が強制的に弾く

>560-561が正しい
568
(2): 動け動けウゴウゴ2ちゃんねる 04/05/31 17:18 ID:EX3viIa5(5/12) AAS
で、一応方向性としては

 ・ 今はApacheのその日の普通のaccess.logを全部読み込んで
   IPアドレス順に並べたり抜き出したりして数えてる
  (もっと早い軽いプログラムがあればそれを使ってもいい)

 ・ (昨日の)access.logを自動で解析して今日の悪い人一覧とか抜き出して
  その鯖の.htaccessに反映させたりしたい

 ・ 溜まった.htaccessの不要なdenyは定期的に掃除できると便利かも

という感じでよろしいんでしょか。
まとめておくとだれかスーパーハクァーな人が名乗り出てくれるかもしれないし。
省5
569: 動け動けウゴウゴ2ちゃんねる 04/05/31 17:20 ID:SyMKHu9n(1) AAS
>>561
せめてうんよー板では、★つけてくれー
結構漏れ鳥との噂だし
570
(1): FOX ★ 04/05/31 17:22 ID:??? AAS
>>568

昨日とかじゃなく

たとえば 10 分毎にデータを取って
前の 10分に負荷を独り占めしたところは 以降 deny
毎朝リセットなんてのを考えていたり寝ていたり
571
(1): ひろゆき ◆3SHRUNYAXA 04/05/31 17:24 ID:+a3NVc0S(5/7) AAS
>>568
robots.txtを読むような紳士的なロボットであれば、
はじく必要ないと思うのですよ。
んで、robots.txtを読むのであれ、読まないのであれ、
紳士的でない負荷をかけるIPであれば遮断すると。
572
(1): 動け動けウゴウゴ2ちゃんねる 04/05/31 17:38 ID:aDzAN461(2/7) AAS
リクエストの元がどんな種類のものであれ、
現在の負荷のみで判断して、即座に止めるてことかー

んで一定期間でリセットする(予定)と
573
(1): 動け動けウゴウゴ2ちゃんねる 04/05/31 17:42 ID:y1UPLd+M(1) AAS
オフトピ臭いけど、紳士的かどうかに関係なくロボットは遮断してしまえば、
SEO目当ての業者を排除できるという副次的メリットが生まれるんじゃないかな。
むやみに2chからリンクされたページの順位は下げるロボットがいたらいいのに。
574: ◆WMaLhm.gkw 04/05/31 17:45 ID:1CDhoqEc(1/3) AAS
あー、なるほど。
過去に過剰負荷をかけたクローラーでも、別IPでまたーりクロールするならOKで、
そのまたーりクロールの妨げになるrobots.txtは置かないと。
575: 動け動けウゴウゴ2ちゃんねる 04/05/31 17:45 ID:EX3viIa5(6/12) AAS
ゆくゆくは解析するのはひとつの鯖でまとめて処理するようになるんでしょうかね。
でも、リアルタイムにガンガン増えるApacheのログから
分とか時間単位で頻繁に差分を抜き出すのって結構手法として厳しいような気も…
せめて静的なファイル単位でどうにかできると気楽かもしんない…教えてエライ人

>>572
アクセス回数(=ログのファイルサイズ)で区切って抜き出すほうが誤爆減るかも。

>>571
>>562な感じで、「問答無用でロボットを弾くことになるrobots.txtの機能は
管理サイドではとりあえず求めてないの」ということでいいですか?
576
(2): FOX ★ 04/05/31 17:53 ID:??? AAS
現在 毎時別のファイルに吐き出しています
つまり1ファイル最大一時間分のでーた
577
(1): 動け動けウゴウゴ2ちゃんねる 04/05/31 17:55 ID:aDzAN461(3/7) AAS
.htaccessに自動に書き出しするところまではできてるの?

>>573
そういうのはBBQとかRockでいけるんじゃないの
578: FOX ★ 04/05/31 17:57 ID:??? AAS
>>576
簡単な解析以外はまだ全部手動。
方法論決まっていないのにプログラム書くのはちと遠慮したい。

完成は 来年の今頃ということで、
1-
あと 423 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.010s