オープンソースの全文検索ソフト

オープンソースの全文検索ソフト (232ﾚｽ)
上下前次 1-新

1(2): はるお 02/11/01 03:28 ID:5yfQC/Z+(1/3) AAS
オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
省6

2: はるお 02/11/01 03:29 ID:5yfQC/Z+(2/3) AAS
Namazu は専用スレがあります。
Namazu 固有の話題はそちらの方がいいでしょう。
他の全文検索エンジンとの比較などはこちらのスレが良いかも。

【UNIX板】全文検索エンジンNamazu
2chｽﾚ:unix

【Linux板】namazuでサーバーを立てたい
2chｽﾚ:linux

【Webプログラミング板】Namazu全文検索システム
2chｽﾚ:php
【Webプログラミング板過去スレ】Namazu全文検索システム
省1

3: はるお 02/11/01 03:32 ID:5yfQC/Z+(3/3) AAS
オープンソースに限りませんが、全文検索ソフトのリストがこちらにあります。

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

THX to 馬場さん＠宇物

4: 02/11/01 03:32 ID:SkScjhB+(1/4) AAS
>>1 スレ立てありがとうございました。

5(1): 分かち書き、形態素解析など 02/11/01 03:50 ID:SkScjhB+(2/4) AAS
Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。

KAKASI - 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/

Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/

○参考リンク
　日本語全文検索での索引作成・検索アルゴリズム
　http://www-6.ibm.com/jp/software/data/cm/txt.html
　ASCII24 デジタル用語辞典 - 形態素解析
省1

6: 02/11/01 04:31 ID:pQeeFyf7(1) AAS
渋さの漂うスレですな。

7: Snatcher 02/11/01 11:39 ID:SkScjhB+(3/4) AAS
Snatcher Full-text Search System ver. 3
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher.html (English)
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html (Japanese)
Copyright (c) 2002 Mikio Hirabayashi. All rights reserved

概要(上記サイトより引用)
Snatcherは、全文検索システムです。

GoogleやAltaVistaをご存じの方は、それが個人向けに簡単になったものだと思ってください。
検索フォームに検索語を入力すると、その語を含む文書の情報を一覧することができます。
検索結果は、該当文書の検索条件への適合度（スコア）の順で、文書の要約とともに表示されます。
Snatcherは、中規模（文書数100000、総容量1GB程度まで）のWebサイトやファイルサーバでの運用に適したシステムです。
省1

8: 日本語を飛ばす 02/11/01 11:44 ID:SkScjhB+(4/4) AAS
入力ファイルから日本語部分を削除するのに使えそうな方法。
【Linux板】namazuでサーバーを立てたい
2chｽﾚ:linux

Namazu, Snatcher などでは日本語を扱うことができます。
しかし多くのオープンソースの全文検索ソフトでは日本語を適切に扱うことができません。
無理やり日本語ファイルをインデックス化すると、
2バイトコードのかけらなどを単語として認識してしまい、
インデックスファイルのサイズが異常に大きくなってしまうことがあります。

9: ファイル形式の判別 02/11/02 07:35 ID:0CRm6865(1/3) AAS
ファイル形式の判別には、拡張子あるいはパス名と正規表現のマッチングで行っているものが多いようですが、
Namazu など Perl ベースで書かれているものは File::MMagic を使っているようですね。

http://search.cpan.org/dist/File-MMagic/

10: mknmz w/kakasi 02/11/02 07:38 ID:0CRm6865(2/3) AAS
Namazu の mknmz で ~/Mail/inbox をインデックス化してみました。
分かち書きには kakasi -w を使っています。

[Append]
Date: Fri Nov 1 21:02:37 2002
Added Documents: 981
Deleted Documents: 2
Size (bytes): 10,434,220
Total Documents: 981
Added Keywords: 61,229
Total Keywords: 62,044
省9

11: mknmz w/kakasi 02/11/02 07:43 ID:0CRm6865(3/3) AAS
できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。

12(1): 02/11/02 23:47 ID:Q0PKCF3m(1) AAS
>>5 こんなのも。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Mhttp://cl.aist-nara.ac.jp/~taku-ku/software/mecab/

C++ で書かれていて ChaSen よりも高速らしい。
他言語への binding も豊富。

13: 02/11/03 01:35 ID:RjWYQ8zV(1/2) AAS
>>12
情報ありがとうございます。
しばらく namazu をいじってました。
独自フィルタを作る方法を知りたくって。

namazuでサーバーを立てたい
2chｽﾚ:linux

14: Windows で namazu w/chasen 02/11/03 14:12 ID:RjWYQ8zV(2/2) AAS
Windows で namazu + chasen を使ってみました。
namazu も chasen もそれぞれ Windows 用バイナリが用意されているのですが、
組み合わせて使おうとすると cygwin 上でソースからコンパイルしたものが必要です。

Namazu全文検索システム
2chｽﾚ:php

15(2): げた 02/11/08 20:25 ID:vI4VdcAe(1) AAS
こんなの、どーよ？ http://geta.ex.nii.ac.jp/

16: 02/11/08 23:46 ID:Vj9mwabw(1) AAS
namazu + kakashi/chasen で決まりでしょう。
んでもってapache上でnamazu.cgi動かす。

glimpseって有料じゃなかったかな?
ht://dig は日本語とおらないし。

17(1): 02/11/18 18:35 ID:X0ZKDOJf(1) AAS
ねえ、日本語ってどう処理すればいいの？

18: 02/11/29 19:22 ID:W9UR7pDn(1) AAS
保全age

19(1): 02/12/07 20:28 ID:pomc3oIV(1) AAS
>>15 GETA って scheme や Haskell との interface も考えてたりして、ちょっとマニアックかも

20: 02/12/07 20:36 ID:HFsFibSk(1) AAS
>>17
まず形態素解析器で形態素を解析します。(Chasen, Juman, MeCab)
その後、必要であれば、どの文節がどの文節に係っているか(係り受け構造)を構文解析器にて、解析します。(CaboCha, KNP)
構文解析器に関しては、以前はKNPが良く利用されていたようですが、最近は CaboCha が良く使われるようです。
# SVM を使用していて精度が高い (らしぃ

上下前次 1-新書関写板覧索設栞歴

あと 212 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.821s*