DB検索プロジェクト (256レス)
1-
抽出解除 レス栞

9: 出来杉3.0 ★ 2008/07/16(水)16:01 ID:??? AAS
どもども、乙です乙です出来杉です

こちらではroot権限付きサーバで使うことを前提に、まだ妄想設計段階だったりしますw

妄想設計の仕様(適当)
・掲示板サーバ(ex14)ローカルでも、別サーバでも
・検索対象はライブスレッド、過去ログはどんどん削除
・Senna、常駐スクリプト(インデックス作成用)などを使うのでroot権限付きが前提
・DBはほとんどor全く使わない(使うかもしれないのは検索結果に表示するdatの一部)

とりあえず特に気になる課題へのツッコミを
・Sennaの組み込み
 さくらプレミアムは共用ホスティングなので厳しい
省1
12
(1): 出来杉3.0 ★ 2008/07/17(木)15:45 ID:??? AAS
>>10
まあ個人的な考えではねw

DATあるいはDBが無くても、Sennaのインデックスがあれば検索できるし、スレッドのURLくらいはわかるわけですよ
スレタイが欲しいならsubjectをメモリにキャッシュしておけばいいし、Sennaは検索でヒットしたレス番まではわからないので、スレ内容は>>1の一部だけをキャッシュすればおkだったりとかで

それと方法の問題&要確認は…

phpを使う場合
 eAcceleratorには変数をキャッシュしておく機能が付いてるらしい
 しかし使いにくいと言う話が…
 (ただし詳しいことはまだ調べてませんので)

Perlを使う場合
省2
13: 出来杉3.0 ★ 2008/07/17(木)15:52 ID:??? AAS
あ、リロード><;

> サーバ
まあ、とりあえずスレタイくらいでいいなら、さくらプレミアムでも何とかなるでしょう
とりあえずはね^^;
16: 出来杉3.0 ★ 2008/07/17(木)17:18 ID:??? AAS
>>12の訂正
×Sennaは検索でヒットしたレス番まではわからないので
○Sennaは検索でヒットした部分の抜粋を作成できる
(これって"KeyWord In Content"と言うのか)

↑この機能を使うならDBの方がパフォーマンス的に優位かも??(しかしサーバが…)

>>14-15
Sennaは単体では使えませんが、DBは無くても使えますよ
DBを使うかどうかは前述のKWICを使うかどうかと言うところでしょう
そしてDBを使えるかどうかはサーバ次第ですかねw(VPSの安いプランとか)
19
(2): 出来杉3.0 ★ 2008/07/17(木)18:13 ID:??? AAS
>>17-18
KWICを使うなら、ファイルorDBからヒットしたスレのDATの中身全部持ってきて、再検索する必要がありますw

もっと小容量のスレタイ&抜粋リストを使えば、そこに書かれてるものに関しては処理は早いはず

後者は専用プログラムを常駐させておいて、余裕のある時or検索CGIにくれくれされた時にDATを読み込んでキャッシュするといいんじゃないかなーと思ってる
それで検索CGIがそのリストを使うときは、名前付きパイプを通して送ると言う感じで

前者はとても抜粋内容のキャッシュなんかしてられないw
こっちにするならキャッシュ機能のあるDBを使うのがいいかと
22: 出来杉3.0 ★ 2008/07/17(木)18:42 ID:??? AAS
>>20-21
病気で倒れてるって、大丈夫ですか?

個人的にはその方法で問題ないです
25: 出来杉3.0 ★ 2008/07/18(金)19:03 ID:??? AAS
> 抜粋リストっていうのが良くわかんないですけど
外部リンク:find.2ch.net
↑の検索結果にはスレ内容の抜粋が載ってますよね

・スレの>>1から抜粋してメモリにキャッシュしておく
・検索結果を表示する時はいちいちDATを開かなくても、スレ内容の抜粋を取得できる
これが>>19の(スレタイ&)抜粋リスト方式です

ちなみにKWICと言うのは、前述の2ch検索みたいに
「ヒットしたスレ内から、検索キーワードを含む部分を探して抜粋する」
と言うものです
Sennaのインデックスからは元のスレ内容が取得できないので、ヒットしたスレの内容を全部を取得して、Sennaに投げる必要があります
省7
28: 出来杉3.0 ★ 2008/07/19(土)18:48 ID:??? AAS
ええ、サーバ次第ですかねぇ

KWICを使うならメモリはともかく、CPUにも再検索分の負荷がかかるので、それも考えないと
(CPUについては将来mreadもこっちに投げるとか言うならの話かも)

さっき全板(ごみ箱の5スレ含む)のsubjectを落として行数足したら、6559スレあるとか

〜以下はかなり適当な検証なので参考までに〜

メモリが512MBだとしたら、全スレメモリキャッシュできるかもしれないけど、できないかもと言うところなのかな…??
まあ、できればメモリは1GBはあった方が良さげ?と言うところかもしれない
32: 出来杉3.0 ★ 2008/07/20(日)15:34 ID:??? AAS
まあRAMが4GBあれば十分すぎるでしょうw

いろいろ考えてたらKWICとmreadはそれぞれ別のキャッシュの方が良さそうな気もしてきました(抜粋リストはともかく)

CPUが仮にAthlonだったら効率のいいキャッシュじゃないと厳しくなる か も しれない
でもRAMが4GBあれば2種類のキャッシュでも問題ないでしょう
38: 出来杉3.0 ★ 2008/07/22(火)18:37 ID:??? AAS
このサーバ用のping発信スクリプト、それと検索サーバ用のマルチスレッドなスクリプトを作る踏み台として
subjectが壊れないように更新するスクリプトを作ってたりするかもしれない

>>33
さくらプレミアムでクライアントと検索サーバの間に入るスクリプトとかって作れないですかね?
Socketでシンプルな専用プロトコルのようなもので検索サーバと通信、とか考えてるんですが…
# しかし詳しいことは決まっていないと言う罠w

>>36
乙です、乙です!
44
(1): 出来杉3.0 ★ 2008/07/23(水)14:33 ID:??? AAS
・このサーバで動くpingスクリプト = 仕様が決まったら、出来杉3.0 ★がPerlで作りそうですよ
・さくらプレミアムで動く検索フロントエンド = PerlでもRubyでもphpでも作る人が好きなので作れば良さげですよ(さくらプレミアムってmod_php使えないのね)
・hpのML115で動く検索スクリプト = さてどうしようか、誰がどういう設計で作るかによるだろうね^^;

>>41
詳細スペックplz
54
(2): 出来杉3.0 ★ 2008/07/24(木)19:30 ID:??? AAS
>>46
> ML115っていうHPのサーバにメモリが大量にのっかってるだけって感じかな
BTOの一番安いのに4GBメモリですか?

> 速度は1M/Secくらいが限界かな
メガビット毎秒なのかメガバイト毎秒なのかわかりません><

IPアドレスを隠しとくのは了解です

ところで、UPSって数年毎にバッテリー交換とかしないとw

>>47
全文検索だけならDBはただの邪魔者ですw
KWICを使うならあった方がいいかもしれないかもしれないよとw
省4
58: 出来杉3.0 ★ 2008/07/25(金)18:17 ID:??? AAS
>>55
把握すたw

鯖のログイン情報送っといてもらえると助かります

>>56
なかなかいい解説やサンプルがあって助かってますw

>>57
板、検索ワード、名前とかIDとか、1件目から10件目まで欲しいとか
くらいですかね
板や名前やIDは、2ch検索みたいに検索ワードに入れてもらうようにするかもしれません

あと、送り方の候補は今のところ2つくらいあるかな
省3
62
(1): 出来杉3.0 ★ 2008/07/26(土)14:19 ID:??? AAS
>>60
まあそんな感じで

>>61
ノシ
64
(1): 出来杉3.0 ★ 2008/07/29(火)16:13 ID:??? AAS
>>63
> ミーフォ茜 ◆BtIJSeriko (PHP担当) P(Perl担当) 伊吹萃香 ◆SUICAthVuI (DB担当)
> の三方が作られていた検索プログラムを先行的に導入してみますた.
把握しますた

ところで思ったのですが、スレッドのプレビューは>>1よりもKWICよりも、現行のスレ内で最初にヒットしたレスを表示するのが良さげですかね?
まあ、そのへんはアンケートでも採るのがいいんでしょうけど

以下個人的なToDo
・検索スクリプト作成の踏み台として作ってる、subject.txtがぬっこわれないようにするスクリプトをとりあえず使えるようにする
 (今月中、と言いたいところだが今週中…いや8/9までに作る^^;)
・ローカルの新実験環境を構築(PortsがアレなのでやっぱLinuxで、早くて8月後半)
67: 出来杉3.0 ★ 2008/07/30(水)18:57 ID:??? AAS
>>65
> subject.txtがぬっこわれないようにするのと
> この広告をどうにか弾くスクリプトを作ってほしいです.(今月中くらいwwww)
今精神的に(ry
とりあえずsubjectはともかく、広告の方は実験サーバが無いとどうしようもないので、そこんとこおながいします(><;

> あ,あとbbs.cgiのバージョンが変わってます(SQL対応)
> 注意してくださいー
おk把握w

>>66
どちらがいいでしょうかね?
省4
69: 出来杉3.0 ★ 2008/07/31(木)15:53 ID:??? AAS
>>68
> 動作的にDBの検索自体よりも結果の転送に時間食ってそうな予感。
8Mbits/secとのことなので、そんな気がしますね

それと、出来杉スクリプトが本当に完成するのかと言う懸念が、どんどん上昇しています
(モチベーション的な意味で)
71: 出来杉3.0 ★ 2008/08/02(土)16:13 ID:??? AAS
出来杉スクリプトは作らず、今のスクリプトにSennaを組み込んで、空いた時間で転送量を減らす事を考えた方が良さげな気がしてきた

MySQLが遅いわけでもなければ、もはや「MySQLより早いの作るぞー!」と言う気も失せてしまったし…
74: 出来杉3.0 ★ 2008/08/06(水)16:03 ID:??? AAS
>>65
えー検索と関係ないですが、subject.txtがぬっこわれないようにするのができたかも

使い方
1.名前付きパイプ(普通のファイルみたいに扱えます)を追記モードで開く
2.板ディレクトリ名、datファイル名、あげ or さげ or 新スレ(HTML化時はどれでもいい)を書く
3.後は名前付きパイプを閉じて待ってれば(゚д゚)ウマー

ただ、テストはごく最低限なものしかしてないですw
75: 出来杉3.0 ★ 2008/08/12(火)17:33 ID:??? AAS
一応、中の人にbbs.cgiでrequireしてるDBの奴のソースをくれくれメールを昨日飛ばしてみたんだけど^^;

あ、俺のメールアドレスとJabberのIDは中の人にメール飛ばして聞いてみてくださいw
1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.103s*