全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
224: 2010/02/24(水)16:57 AAS
 日本語で最速なのはこれっぽいけど 
 英語で最速なのがどれなにか知りたかったんだ 
225: 2010/03/08(月)21:40 AAS
 亀レスにもほどがあるがズバリそのものがあります。 
  
 >>198 
 Datファイル全文検索ソフト 
 外部リンク:frozenlib.net 
 >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。
226: 2010/03/16(火)22:31 AAS
 「file size limit exceeded」で、いきなりダウンしたよ。 
  
 システムによって2Gとかのファイル制限あるから、 
 logファイルの大きさには注意しましょ。 
 ログの記録レベルを煽りましょう〜 
227: 2010/03/25(木)00:58 AAS
 indexサイズが小さくて、もれなく検索できればいい。 
 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 
 web用途ではなくデスクトップで使うには 
 書庫内と不足なしが大事。 
 順位は無くて良い。開いてみれば済むからな。 
 これはそういう使い方出来る? 
228: 2010/03/25(木)01:06 AAS
 複雑なアルゴリズムはいらない。 
 Grepの手助け程度で良い。 
 書庫に対応する。 
 いいやつ無いですか? 
229: 2010/03/25(木)02:01 AAS
 フィルタ書けばいいじゃん。 
230: 2010/03/25(木)07:11 AAS
 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 
 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 
 言語ごとに異なる位置にありますか。 
 統一した方が良いと思いますが。コード位置がわかりません、 
231(1): 2010/03/25(木)07:29 AAS
 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 
 このソフトはどっちですか。 
 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 
 文字単位では日本語一文字と英語一文字の価値が同等になりますが 
 実際の情報量は日本語の方が大きいです。 
 英語の2文字か3文字くらいの情報量がありそう。 
 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 
232: 2010/03/25(木)07:31 AAS
 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ 
  
 # 思いついた単語を羅列してるだけみたいだけど在日? 
233: 2010/03/25(木)10:19 AAS
 脊髄反射で在日とか言うネトウヨ? 
234: 2010/03/26(金)11:17 AAS
 ということにしたいのですね。 
235: 2010/03/26(金)12:04 AAS
 いいえ、自分が理解できないだけなのを認めたくないだけです。 
236: 2010/03/26(金)13:35 AAS
 ということにしたいのですね。 
237: 2010/03/26(金)13:56 AAS
 はい。 
238(1): 2010/03/26(金)14:41 AAS
 >>231 
 外部リンク[html]:hyperestraier.sourceforge.net 
 バイト単位ではなく文字単位2-gram 
 ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 
 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 
  
 こんぐらい教えてやれよ、無能なやつばっかだな 
239: 2010/03/26(金)15:22 AAS
 分かってんならすぐに教えてやれよ、ノロマだな 
  
 という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? 
 もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 
  
 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 
 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 
 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし 
 ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 
240: 2010/03/26(金)20:42 AAS
 サンクス 
 いまローカルでgrep手助け用検索開発してる 
 もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 
241: 2010/03/26(金)23:42 AAS
 ちょwまて 
 漏れなしバイナリ検索ならgrepで十分だろ 
 インデックス化するメリットないぞ 
242: 2010/03/26(金)23:58 AAS
 数ギガ、数十ギガとデータあったらどうする? 
243: 2010/03/27(土)00:22 AAS
 もうその話あきた。よそでやれ 
244: 2010/04/14(水)09:33 AAS
 mixiで公開してる東京なんとか 
 とかいう奴はこれの上位版? 
245: 2010/04/14(水)11:36 AAS
 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? 
246: 2010/05/01(土)16:32 AAS
 これはなんでこんな速いんだ 
 転置インデックスだけの速さじゃないよね 
247: 2010/05/19(水)20:34 AAS
 hyper estraierで3000報の論文を検索しまくったら 
 予想外に研究が進んで、凶授どもが俺のことを 
 天才と勘違いしてやがるw 
 こんなダメ人間に希望を与えてくれた作者氏に 
 頭が下がる思いです。 
248: 2010/05/21(金)21:40 AAS
 公式メーリングリストは敷居が高いのと、 
 若干過疎気味なので、こちらで質問させてください。 
  
 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は 
 インデックスを作成し、検索できるようになりました。 
 後は掲示板のデータベースの検索が残っています。 
 SQLという言語で読み書きしてるらしいのですが、 
 hyper estraierでデータベースのインデックスを 
 作成するにはどうすればよいのでしょうか? 
 検索してみたのですが、windows環境での方法は 
 見つかりませんでした。
省6
249(2): 2010/05/24(月)12:53 AAS
 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 
 外部リンク[html]:hyperestraier.sourceforge.net 
  
 うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 
 いろんな方法があってC,Java,Rubu,Perl,Pythonとか 
 ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 
 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 
250: 2010/05/26(水)02:11 AAS
 >>249 
 248です。 
 ありがとうございました。 
 まだわかっていない部分があるので、 
 まずはwebクローラーを使って試行してみます。 
251(2): 2010/06/01(火)20:00 AAS
 数が増えるとフラッシュしまくりで速度低下するんですが。 
 解決方法ありますか。 
252(1): 2010/06/02(水)19:06 AAS
 複数ファイルの書庫をディレクトリと認識するエンジンありますか 
253: 2010/06/03(木)13:20 AAS
 >>252 
 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 
上下前次1-新書関写板覧索設栞歴
あと 80 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.025s