全文検索エンジン Hyper Estraier 2

全文検索エンジン Hyper Estraier 2 (333ﾚｽ)
上下前次 1-新

224: 2010/02/24(水)16:57 AAS
日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ

225: 2010/03/08(月)21:40 AAS
亀レスにもほどがあるがズバリそのものがあります。

>>198
Datファイル全文検索ソフト
外部ﾘﾝｸ:frozenlib.net
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。

226: 2010/03/16(火)22:31 AAS
｢file size limit exceeded」で、いきなりダウンしたよ。

システムによって２Ｇとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう〜

227: 2010/03/25(木)00:58 AAS
indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?

228: 2010/03/25(木)01:06 AAS
複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?

229: 2010/03/25(木)02:01 AAS
フィルタ書けばいいじゃん。

230: 2010/03/25(木)07:11 AAS
全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、

231(1): 2010/03/25(木)07:29 AAS
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。

232: 2010/03/25(木)07:31 AAS
何が言いたいのかさっぱり分かりません！＼(￣∧￣)／

# 思いついた単語を羅列してるだけみたいだけど在日？

233: 2010/03/25(木)10:19 AAS
脊髄反射で在日とか言うネトウヨ？

234: 2010/03/26(金)11:17 AAS
ということにしたいのですね。

235: 2010/03/26(金)12:04 AAS
いいえ、自分が理解できないだけなのを認めたくないだけです。

236: 2010/03/26(金)13:35 AAS
ということにしたいのですね。

237: 2010/03/26(金)13:56 AAS
はい。

238(1): 2010/03/26(金)14:41 AAS
>>231
外部ﾘﾝｸ[html]:hyperestraier.sourceforge.net
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、２文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな

239: 2010/03/26(金)15:22 AAS
分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか？
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では？

元々の問い（かどうかも分からない）は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238

240: 2010/03/26(金)20:42 AAS
サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。

241: 2010/03/26(金)23:42 AAS
ちょｗまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ

242: 2010/03/26(金)23:58 AAS
数ギガ、数十ギガとデータあったらどうする?

243: 2010/03/27(土)00:22 AAS
もうその話あきた。よそでやれ

244: 2010/04/14(水)09:33 AAS
mixiで公開してる東京なんとか
とかいう奴はこれの上位版？

245: 2010/04/14(水)11:36 AAS
TokyoCabinetは検索エンジンというよりそのバックエンド、かな？

246: 2010/05/01(土)16:32 AAS
これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね

247: 2010/05/19(水)20:34 AAS
hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるｗ
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。

248: 2010/05/21(金)21:40 AAS
公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか？
検索してみたのですが、windows環境での方法は
見つかりませんでした。
省6

249(2): 2010/05/24(月)12:53 AAS
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
外部ﾘﾝｸ[html]:hyperestraier.sourceforge.net

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト＋estcmdでもできなくはないと思う。

250: 2010/05/26(水)02:11 AAS
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。

251(2): 2010/06/01(火)20:00 AAS
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。

252(1): 2010/06/02(水)19:06 AAS
複数ファイルの書庫をディレクトリと認識するエンジンありますか

253: 2010/06/03(木)13:20 AAS
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。

上下前次 1-新書関写板覧索設栞歴

あと 80 ﾚｽあります
ｽﾚ情報赤ﾚｽ抽出画像ﾚｽ抽出歴の未読ｽﾚ AAｻﾑﾈｲﾙ

ぬこの手ぬこTOP 0.025s