全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
233: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 10:19:59 脊髄反射で在日とか言うネトウヨ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/233
234: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 11:17:22 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/234
235: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 12:04:40 いいえ、自分が理解できないだけなのを認めたくないだけです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/235
236: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:35:20 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/236
237: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:56:04 はい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/237
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
239: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 15:22:12 分かってんならすぐに教えてやれよ、ノロマだな という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 http://mevius.5ch.net/test/read.cgi/unix/1176807372/239
240: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 20:42:39 サンクス いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/240
241: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:42:38 ちょwまて 漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ http://mevius.5ch.net/test/read.cgi/unix/1176807372/241
242: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:58:55 数ギガ、数十ギガとデータあったらどうする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/242
243: 名無しさん@お腹いっぱい。 [sage] 2010/03/27(土) 00:22:50 もうその話あきた。よそでやれ http://mevius.5ch.net/test/read.cgi/unix/1176807372/243
244: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 09:33:15 mixiで公開してる東京なんとか とかいう奴はこれの上位版? http://mevius.5ch.net/test/read.cgi/unix/1176807372/244
245: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 11:36:00 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/245
246: 名無しさん@お腹いっぱい。 [sage] 2010/05/01(土) 16:32:06 これはなんでこんな速いんだ 転置インデックスだけの速さじゃないよね http://mevius.5ch.net/test/read.cgi/unix/1176807372/246
247: 名無しさん@お腹いっぱい。 [sage] 2010/05/19(水) 20:34:25 hyper estraierで3000報の論文を検索しまくったら 予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/247
248: 名無しさん@お腹いっぱい。 [sage] 2010/05/21(金) 21:40:15 公式メーリングリストは敷居が高いのと、 若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 windows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/248
249: 名無しさん@お腹いっぱい。 [sage] 2010/05/24(月) 12:53:33 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 いろんな方法があってC,Java,Rubu,Perl,Pythonとか ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/249
250: 名無しさん@お腹いっぱい。 [sage] 2010/05/26(水) 02:11:25 >>249 248です。 ありがとうございました。 まだわかっていない部分があるので、 まずはwebクローラーを使って試行してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/250
251: 名無しさん@お腹いっぱい。 [sage] 2010/06/01(火) 20:00:23 数が増えるとフラッシュしまくりで速度低下するんですが。 解決方法ありますか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/251
252: 名無しさん@お腹いっぱい。 [sage] 2010/06/02(水) 19:06:56 複数ファイルの書庫をディレクトリと認識するエンジンありますか http://mevius.5ch.net/test/read.cgi/unix/1176807372/252
253: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 13:20:31 >>252 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/253
254: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 16:48:10 サンクス http://mevius.5ch.net/test/read.cgi/unix/1176807372/254
255: 名無しさん@お腹いっぱい。 [sage] 2010/06/04(金) 20:57:30 【岩波書店】 Google問題の核心 ―― 開かれた検索システムのために ―― 牧野 二郎 http://www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ. Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問 題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決 するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提 案する. http://mevius.5ch.net/test/read.cgi/unix/1176807372/255
256: 名無しさん@お腹いっぱい。 [sage] 2010/06/05(土) 22:13:46 >>249 結局、SQLコマンドでデータを取ってきて、 インデックス作成するプログラムを作りました。 ありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/256
257: 名無しさん@お腹いっぱい。 [sage] 2010/06/14(月) 16:45:12 すみません、教えてください。 Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/257
258: 名無しさん@お腹いっぱい。 [sage] 2010/06/28(月) 10:43:43 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 他に http://mevius.5ch.net/test/read.cgi/unix/1176807372/258
259: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 03:31:58 引き継いで開発してくれる有志っていないの? 低スキルなので、私はだめだけど.. http://mevius.5ch.net/test/read.cgi/unix/1176807372/259
260: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 04:16:09 >>259 なんか問題あるっけ? TCに移行すればいいじゃない。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/260
261: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 17:19:59 TCって、KVSじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/261
262: 名無しさん@お腹いっぱい。 [sage] 2010/08/15(日) 12:35:46 TCは全文検索できるよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/262
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 71 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.016s