全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
224: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 16:57:45 日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ http://mevius.5ch.net/test/read.cgi/unix/1176807372/224
225: 名無しさん@お腹いっぱい。 [sage] 2010/03/08(月) 21:40:20 亀レスにもほどがあるがズバリそのものがあります。 >>198 Datファイル全文検索ソフト http://frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/225
226: 名無しさん@お腹いっぱい。 [sage] 2010/03/16(火) 22:31:58 「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/226
227: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 00:58:26 indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る? http://mevius.5ch.net/test/read.cgi/unix/1176807372/227
228: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 01:06:28 複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/228
229: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 02:01:51 フィルタ書けばいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/229
230: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:11:50 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、 http://mevius.5ch.net/test/read.cgi/unix/1176807372/230
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
232: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:31:23 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ # 思いついた単語を羅列してるだけみたいだけど在日? http://mevius.5ch.net/test/read.cgi/unix/1176807372/232
233: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 10:19:59 脊髄反射で在日とか言うネトウヨ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/233
234: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 11:17:22 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/234
235: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 12:04:40 いいえ、自分が理解できないだけなのを認めたくないだけです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/235
236: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:35:20 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/236
237: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:56:04 はい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/237
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
239: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 15:22:12 分かってんならすぐに教えてやれよ、ノロマだな という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズム
にそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 http://mevius.5ch.net/test/read.cgi/unix/1176807372/239
240: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 20:42:39 サンクス いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/240
241: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:42:38 ちょwまて 漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ http://mevius.5ch.net/test/read.cgi/unix/1176807372/241
242: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:58:55 数ギガ、数十ギガとデータあったらどうする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/242
243: 名無しさん@お腹いっぱい。 [sage] 2010/03/27(土) 00:22:50 もうその話あきた。よそでやれ http://mevius.5ch.net/test/read.cgi/unix/1176807372/243
244: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 09:33:15 mixiで公開してる東京なんとか とかいう奴はこれの上位版? http://mevius.5ch.net/test/read.cgi/unix/1176807372/244
245: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 11:36:00 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/245
246: 名無しさん@お腹いっぱい。 [sage] 2010/05/01(土) 16:32:06 これはなんでこんな速いんだ 転置インデックスだけの速さじゃないよね http://mevius.5ch.net/test/read.cgi/unix/1176807372/246
247: 名無しさん@お腹いっぱい。 [sage] 2010/05/19(水) 20:34:25 hyper estraierで3000報の論文を検索しまくったら 予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/247
248: 名無しさん@お腹いっぱい。 [sage] 2010/05/21(金) 21:40:15 公式メーリングリストは敷居が高いのと、 若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 win
dows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/248
249: 名無しさん@お腹いっぱい。 [sage] 2010/05/24(月) 12:53:33 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 いろんな方法があってC,Java,Rubu,Perl,Pythonとか ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/249
250: 名無しさん@お腹いっぱい。 [sage] 2010/05/26(水) 02:11:25 >>249 248です。 ありがとうございました。 まだわかっていない部分があるので、 まずはwebクローラーを使って試行してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/250
251: 名無しさん@お腹いっぱい。 [sage] 2010/06/01(火) 20:00:23 数が増えるとフラッシュしまくりで速度低下するんですが。 解決方法ありますか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/251
252: 名無しさん@お腹いっぱい。 [sage] 2010/06/02(水) 19:06:56 複数ファイルの書庫をディレクトリと認識するエンジンありますか http://mevius.5ch.net/test/read.cgi/unix/1176807372/252
253: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 13:20:31 >>252 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/253
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 80 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.033s