全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
195: 名無しさん@お腹いっぱい。 [sage] 2009/11/18(水) 06:15:41 estcmd repair を、時々やらないと駄目ってことですかね。 (-_-;ウーン たまに治らないときもあるし.. -- 追記お願いします m(_ _"m)ペコリ--------- 【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる サーバールートDirの _pid _stop の削除 【テク2】DBが?でるっぽい #estcmd repair index_path ex.ノードサーバー利用時は(サーバールートをcasketなら) #estcmd repair casket/_node/ノード名 【テク3】estwaver crawl時の「could not open」エラーの解決法 クローラールートディレクトリを crawl_dir と仮定して Code: #cd crawl_dir #estcmd repair _index #dpmgr repair _trace/0001/depot #dpmgr repair _trace/0002/depot #dpmgr repair _trace/0003/depot http://mevius.5ch.net/test/read.cgi/unix/1176807372/195
196: 名無しさん@お腹いっぱい。 [sage] 2009/11/18(水) 16:56:39 >>195 >>estcmd repair を、時々やらないと駄目ってことですかね。 repairを一回やってみたんだ。直ったかなと思って、それでも念の為に もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。 repairを繰り返す度に減っていくんだ・・・ あきらめて再構築したよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/196
197: 名無しさん@お腹いっぱい。 [sage] 2009/11/19(木) 05:41:03 >repairを繰り返す度に減っていくんだ・・・ ((( ;゚Д゚)))ガクガクブルブル 「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか? 「特定のキーワードにヒットさせない」でもいいかなー http://mevius.5ch.net/test/read.cgi/unix/1176807372/197
198: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 08:54:17 Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。 DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。 DesktopHEで利用しようとしております。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/198
199: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 14:16:19 >>197 私も探してみたけど、そのものは無いみたい。 よくやる作業ならcgiとか作るんじゃないかな。 コマンドから手作業するときは、例えばこんな感じ。 消したいやつを検索して estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord OKなら上のコマンドに以下を追加 |awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done http://mevius.5ch.net/test/read.cgi/unix/1176807372/199
200: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 16:26:25 >>198 出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、 DesktopHEの関連付けはjaneにすればいいみたいな。 私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/200
201: 名無しさん@お腹いっぱい。 [sage] 2009/11/20(金) 22:49:29 >>200 速レスありがとう。 htmlに変換してって毎日巡回するたびにdat2html走らせてるの? それとも真夜中にバッチ処理? いずれにせよ、HDD容量が倍必要ですよね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/201
202: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 12:31:28 >>201 >>毎日巡回するたびにdat2html走らせてるの? そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。 ログは8GBくらいある。datファイルは定期的に削除している。 ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/202
203: 名無しさん@お腹いっぱい。 [sage] 2009/11/21(土) 23:28:31 >>202 うちもログは6Gぐらいあります。 全部変換するとなると15gぐらいいきそうですよねorz Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。 Threadsearchと併用しないと駄目ですかね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/203
204: 名無しさん@お腹いっぱい。 [sage] 2009/11/27(金) 00:40:30 XREAで設置しようとしたけど、インストールの段階で躓いたorz cannot find -liconvとかでてきてるし・・・ libiconvの入れ方に問題があるのかなぁ・・・。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/204
205: 名無しさん@お腹いっぱい。 [] 2010/01/07(木) 21:28:29 某サイト丸ごと吸い上げようと、 クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった... 種文書を全部吸い上げてからインデックスするとは知らんかった。 seeddepth1〜2でよさそうね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/205
206: 名無しさん@お腹いっぱい。 [sage] 2010/01/15(金) 16:12:43 Hyper Estraier のwinを使っている方に質問です。 当方初心者。 インストール、インデックス作成まではできました。なんとか。 しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。 replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/206
207: 名無しさん@お腹いっぱい。 [sage] 2010/01/16(土) 02:43:00 >>206 win版も使ったことはありますが、それだけでは何がなんだか分かりません。 estcmd inform casket は通りますか? Hyper Estraier の画面は出るのですか? 表示のどこかに不満があるのですか? どうなって欲しくて、現状どうなっているのか書いてください。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/207
208: 名無しさん@お腹いっぱい。 [sage] 2010/01/18(月) 15:45:09 ゴミのような2chのログも、こいつを使うと宝の山になる。 はらしょー http://mevius.5ch.net/test/read.cgi/unix/1176807372/208
209: 名無しさん@お腹いっぱい。 [] 2010/02/05(金) 14:01:07 Hyper Estraier 1.4.10(Win)を利用している者です。 ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか? 今、その状態です。 検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。 すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。 どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか? これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/209
210: 名無しさん@お腹いっぱい。 [sage] 2010/02/05(金) 22:04:05 文字コードの問題じゃね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/210
211: 名無しさん@お腹いっぱい。 [sage] 2010/02/07(日) 17:19:49 鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/211
212: 209 [] 2010/02/08(月) 08:11:35 >>211 ブラウザは、他にオペラも試しました。同じ結果でした。 クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。 >>210 仮に文字コードの問題なら、対処法はありますでしょうか? 何卒よろしくお願いいたします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/212
213: 名無しさん@お腹いっぱい。 [sage] 2010/02/08(月) 20:12:30 まずは、本当に文字コードの問題かどうかを確かめるべきです フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して それをブラウザから開くことができれば、文字コードの問題だと思います http://mevius.5ch.net/test/read.cgi/unix/1176807372/213
214: 209,212 [] 2010/02/09(火) 08:13:55 >>213 >フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し やってみました。ダメでした。相変わらずジャンプしてくれません。 考えるに、estseek.conf の replace設定なのかな、と。 これについては、自分でも自信がなかったので、下記に示します。 当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: ^file:///c:\server\{{!}}http://127.0.0.1/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− このような記載でよろしいのでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/214
215: 209,212,214 [] 2010/02/09(火) 16:47:54 追記します。 estseek.conf のreplace設定を見直してみました。 試行錯誤の結果、 −−−−−−−−−−−−−−−−−−−−−−−−−−− replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/ replace: /index\.html?${{!}}/ −−−−−−−−−−−−−−−−−−−−−−−−−−− とすることによりまして、 検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・ となりました。 この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。 これらを消す、なにか良い方法がありましたら教えていただければ助かります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/215
216: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 20:47:05 replaceの設定は元の設定で問題ない感じがします。 むしろ、showlrealの設定が falseの設定になっていると、 当該現象が発生するように思われます。こちらでも、 同様の現象を確認しました。unix で 1.4.13ですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/216
217: 名無しさん@お腹いっぱい。 [sage] 2010/02/09(火) 21:38:12 こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。 replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。 正しくは、C:\\server\\ではないでしょうか? そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。 showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。 以下マニュアルより ------------- replaceは正規表現によってURIを変換するのに使います。複数回指定できます。 先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする 「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。 「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。 -------------- http://mevius.5ch.net/test/read.cgi/unix/1176807372/217
218: 209,212,214,215 [sage] 2010/02/10(水) 07:57:47 >>216 showlreal を「true」にしてみましたが、状況は変わりませんでした。 ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。 .htmがなぜかジャンプしないのです。 >>217 C:\\server\\と記載し、やってみました。 すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、 c:\server\search\・・・・・ となりました。 htmの文書へは、ジャンプしてくれません。 仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。 やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。 まだまだ試行錯誤中・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/218
219: 名無しさん@お腹いっぱい。 [sage] 2010/02/10(水) 08:56:54 つーかさ、やってることの意味分かってやってる? 別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、 何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、 どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。 困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。 # 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを # すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/219
220: 名無しさん@お腹いっぱい。 [sage] 2010/02/23(火) 20:50:40 これって英語の検索もはやくなるの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/220
221: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 00:09:09 もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません http://mevius.5ch.net/test/read.cgi/unix/1176807372/221
222: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:18:43 http://www.seg.rmit.edu.au/zettair/ 英語で使うだけならこっちの方が速かったりする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/222
223: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 12:50:03 なんだ、宣伝かよ http://mevius.5ch.net/test/read.cgi/unix/1176807372/223
224: 名無しさん@お腹いっぱい。 [sage] 2010/02/24(水) 16:57:45 日本語で最速なのはこれっぽいけど 英語で最速なのがどれなにか知りたかったんだ http://mevius.5ch.net/test/read.cgi/unix/1176807372/224
225: 名無しさん@お腹いっぱい。 [sage] 2010/03/08(月) 21:40:20 亀レスにもほどがあるがズバリそのものがあります。 >>198 Datファイル全文検索ソフト http://frozenlib.net/DatE/ >DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/225
226: 名無しさん@お腹いっぱい。 [sage] 2010/03/16(火) 22:31:58 「file size limit exceeded」で、いきなりダウンしたよ。 システムによって2Gとかのファイル制限あるから、 logファイルの大きさには注意しましょ。 ログの記録レベルを煽りましょう〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/226
227: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 00:58:26 indexサイズが小さくて、もれなく検索できればいい。 あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。 web用途ではなくデスクトップで使うには 書庫内と不足なしが大事。 順位は無くて良い。開いてみれば済むからな。 これはそういう使い方出来る? http://mevius.5ch.net/test/read.cgi/unix/1176807372/227
228: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 01:06:28 複雑なアルゴリズムはいらない。 Grepの手助け程度で良い。 書庫に対応する。 いいやつ無いですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/228
229: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 02:01:51 フィルタ書けばいいじゃん。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/229
230: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:11:50 全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。 UTF8や16では、全角のアルファベットは世界共通の配置になってますか。 言語ごとに異なる位置にありますか。 統一した方が良いと思いますが。コード位置がわかりません、 http://mevius.5ch.net/test/read.cgi/unix/1176807372/230
231: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:29:47 N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。 このソフトはどっちですか。 日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。 文字単位では日本語一文字と英語一文字の価値が同等になりますが 実際の情報量は日本語の方が大きいです。 英語の2文字か3文字くらいの情報量がありそう。 バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/231
232: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 07:31:23 何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/ # 思いついた単語を羅列してるだけみたいだけど在日? http://mevius.5ch.net/test/read.cgi/unix/1176807372/232
233: 名無しさん@お腹いっぱい。 [sage] 2010/03/25(木) 10:19:59 脊髄反射で在日とか言うネトウヨ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/233
234: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 11:17:22 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/234
235: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 12:04:40 いいえ、自分が理解できないだけなのを認めたくないだけです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/235
236: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:35:20 ということにしたいのですね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/236
237: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 13:56:04 はい。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/237
238: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 14:41:05 >>231 http://hyperestraier.sourceforge.net/uguide-ja.html#wordextraction バイト単位ではなく文字単位2-gram ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能 また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可 こんぐらい教えてやれよ、無能なやつばっかだな http://mevius.5ch.net/test/read.cgi/unix/1176807372/238
239: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 15:22:12 分かってんならすぐに教えてやれよ、ノロマだな という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか? もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では? 元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は 英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、 N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238 http://mevius.5ch.net/test/read.cgi/unix/1176807372/239
240: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 20:42:39 サンクス いまローカルでgrep手助け用検索開発してる もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/240
241: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:42:38 ちょwまて 漏れなしバイナリ検索ならgrepで十分だろ インデックス化するメリットないぞ http://mevius.5ch.net/test/read.cgi/unix/1176807372/241
242: 名無しさん@お腹いっぱい。 [sage] 2010/03/26(金) 23:58:55 数ギガ、数十ギガとデータあったらどうする? http://mevius.5ch.net/test/read.cgi/unix/1176807372/242
243: 名無しさん@お腹いっぱい。 [sage] 2010/03/27(土) 00:22:50 もうその話あきた。よそでやれ http://mevius.5ch.net/test/read.cgi/unix/1176807372/243
244: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 09:33:15 mixiで公開してる東京なんとか とかいう奴はこれの上位版? http://mevius.5ch.net/test/read.cgi/unix/1176807372/244
245: 名無しさん@お腹いっぱい。 [sage] 2010/04/14(水) 11:36:00 TokyoCabinetは検索エンジンというよりそのバックエンド、かな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/245
246: 名無しさん@お腹いっぱい。 [sage] 2010/05/01(土) 16:32:06 これはなんでこんな速いんだ 転置インデックスだけの速さじゃないよね http://mevius.5ch.net/test/read.cgi/unix/1176807372/246
247: 名無しさん@お腹いっぱい。 [sage] 2010/05/19(水) 20:34:25 hyper estraierで3000報の論文を検索しまくったら 予想外に研究が進んで、凶授どもが俺のことを 天才と勘違いしてやがるw こんなダメ人間に希望を与えてくれた作者氏に 頭が下がる思いです。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/247
248: 名無しさん@お腹いっぱい。 [sage] 2010/05/21(金) 21:40:15 公式メーリングリストは敷居が高いのと、 若干過疎気味なので、こちらで質問させてください。 windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は インデックスを作成し、検索できるようになりました。 後は掲示板のデータベースの検索が残っています。 SQLという言語で読み書きしてるらしいのですが、 hyper estraierでデータベースのインデックスを 作成するにはどうすればよいのでしょうか? 検索してみたのですが、windows環境での方法は 見つかりませんでした。 windows環境でインデックスを作成する方法の伝授、 もしくは説明してるサイトがありましたら、教示願います。 当方、組み込み系のプログラムの経験はありますが、 windowsプログラム、webアプリ、SQLは素人状態です。 要領を得ない、質問をした本人がいまいちわかってない 自覚がある質問で申し訳ありませんが、よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/248
249: 名無しさん@お腹いっぱい。 [sage] 2010/05/24(月) 12:53:33 たぶん一番普通の方法はwebクローラーを使ってインデックスを作成 ttp://hyperestraier.sourceforge.net/cguide-ja.html うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作 いろんな方法があってC,Java,Rubu,Perl,Pythonとか ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。 頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/249
250: 名無しさん@お腹いっぱい。 [sage] 2010/05/26(水) 02:11:25 >>249 248です。 ありがとうございました。 まだわかっていない部分があるので、 まずはwebクローラーを使って試行してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/250
251: 名無しさん@お腹いっぱい。 [sage] 2010/06/01(火) 20:00:23 数が増えるとフラッシュしまくりで速度低下するんですが。 解決方法ありますか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/251
252: 名無しさん@お腹いっぱい。 [sage] 2010/06/02(水) 19:06:56 複数ファイルの書庫をディレクトリと認識するエンジンありますか http://mevius.5ch.net/test/read.cgi/unix/1176807372/252
253: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 13:20:31 >>252 書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/253
254: 名無しさん@お腹いっぱい。 [sage] 2010/06/03(木) 16:48:10 サンクス http://mevius.5ch.net/test/read.cgi/unix/1176807372/254
255: 名無しさん@お腹いっぱい。 [sage] 2010/06/04(金) 20:57:30 【岩波書店】 Google問題の核心 ―― 開かれた検索システムのために ―― 牧野 二郎 http://www.iwanami.co.jp/shinkan/index.html 世界の出版界に衝撃が走った.Googleが新しいブックサービスを開始したのだ. Googleなどの検索システムがなぜ興隆し,そこで起こっている収集の限界や偏向問 題など深刻化する問題を各国の事例などを踏まえ徹底的に検証する.それらを解決 するため,著者を軸にさまざまの分野の研究者が集結し,新しい検索システムを提 案する. http://mevius.5ch.net/test/read.cgi/unix/1176807372/255
256: 名無しさん@お腹いっぱい。 [sage] 2010/06/05(土) 22:13:46 >>249 結局、SQLコマンドでデータを取ってきて、 インデックス作成するプログラムを作りました。 ありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/256
257: 名無しさん@お腹いっぱい。 [sage] 2010/06/14(月) 16:45:12 すみません、教えてください。 Hyper Estraierを使い始めましたが、 Hyper Estraierで文章の中身だけでなく、 ファイル名やファイルパスも検索のキーワードに 同時にヒットさせたいです。 インデックスの作成や、検索時になにか オプションで指定するなど、なにか方法がありますか。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/257
258: 名無しさん@お腹いっぱい。 [sage] 2010/06/28(月) 10:43:43 クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。 他に http://mevius.5ch.net/test/read.cgi/unix/1176807372/258
259: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 03:31:58 引き継いで開発してくれる有志っていないの? 低スキルなので、私はだめだけど.. http://mevius.5ch.net/test/read.cgi/unix/1176807372/259
260: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 04:16:09 >>259 なんか問題あるっけ? TCに移行すればいいじゃない。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/260
261: 名無しさん@お腹いっぱい。 [sage] 2010/08/05(木) 17:19:59 TCって、KVSじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/261
262: 名無しさん@お腹いっぱい。 [sage] 2010/08/15(日) 12:35:46 TCは全文検索できるよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/262
263: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:13:39 最近使い始めたものです。 簡便書式で検索した場合、 例えば、「a*」とした場合と「ab*」とした場合に なぜか「ab*」の方がヒット件数が多くなります。 一応、公式サイト見てきましたが、 それらしいことは書いてありませんでした。 なにか心当たりがある方がいれば、 教えてください。 よろしくお願いします。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/263
264: 名無しさん@お腹いっぱい。 [sage] 2010/09/22(水) 22:16:16 >>262 データ量多くなるとまともに使えなくなるけどなw http://mevius.5ch.net/test/read.cgi/unix/1176807372/264
265: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 01:38:18 >>264 mixiの全データ検索に使用されているからそれはないのでは? なにか運用間違えているとか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/265
266: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 02:49:10 TCの全文検索ってQ-GRAMインデックスのことだろ? データ量増えるとホント糞みたいに重くなって使い物にならんぞ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/266
267: 名無しさん@お腹いっぱい。 [sage] 2010/09/23(木) 19:36:40 作ってる本人も遅いって言ってた気がする。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/267
268: 265 [sage] 2010/09/23(木) 20:30:00 mixiでTCが使われているのは全文検索じゃなかったね。ゴメン http://mevius.5ch.net/test/read.cgi/unix/1176807372/268
269: 名無しさん@お腹いっぱい。 [sage] 2010/10/07(木) 04:14:16 >>263 N-gramのN=2とかが関係してるんじゃない? わかち書きを変えてみると違う結果になると思う。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/269
270: 名無しさん@お腹いっぱい。 [sage] 2010/10/09(土) 17:47:15 >>269 レス、ありがとうございました。 とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで 検索してみましたが、結果の数は変わりませんでした。 なんにしろ、N-gram関連を勉強してみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/270
271: 名無しさん@お腹いっぱい。 [sage] 2010/10/11(月) 12:23:08 >>263 wildmax の設定でいくらか調整できると思う。 けれど一文字で検索する場合には、N-gramインデックスでは あまり良い結果出せないんじゃないかな。 269が書いた通り、2-gramに対し一文字で検索するため、 「ab」を含む文書を取得する 「a」で始まる2-gramをwildmax個拾って、それらを含む文書を 取得する(2gramの出現頻度とかは見てない) という内部動作なんだろうなと、前に思った。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/271
272: 名無しさん@お腹いっぱい。 [sage] 2010/10/27(水) 20:48:38 >>271 遅レスすいません。さっき、気づきました。 詳細な情報ありがとうございました。 とりあえず、ソースを読んでみましたが、 QDBMの中身も把握してないと理解 できなさそうなので、時間のあるときに 見てみます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/272
273: 名無しさん@お腹いっぱい。 [sage] 2010/10/30(土) 15:19:33 誰かこの問題をHyper Estraier でも起きないか検証してくれw ttp://uinyan.com/windows7_critical_bug/ http://mevius.5ch.net/test/read.cgi/unix/1176807372/273
274: 名無しさん@お腹いっぱい。 [sage] 2010/11/16(火) 15:09:15 windowsですが、DesktopHEの他に、似たソフトってないですか? もしくはどなたか改造されていたり。 フォルダ順ができるだけでも楽になるのですが・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/274
275: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 08:37:50 ファイル名のみ、または、最初の数行だけをクロールすることは可能? 全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/275
276: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 09:36:59 ”インデックスの容量”を心配しているの? だとしたら杞憂だと思うんだけど、もしかして組込み系? http://mevius.5ch.net/test/read.cgi/unix/1176807372/276
277: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:07:41 >>276 いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。 なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/277
278: 名無しさん@お腹いっぱい。 [sage] 2011/02/10(木) 13:47:37 >>277 インデックスの容量 -> テキスト情報量に依存 クロール時間 -> クロール方法に依存 マニュアルをちゃんと読んでから検討したほうがいいよ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/278
279: 名無しさん@お腹いっぱい。 [] 2011/02/10(木) 23:56:21 最近のMinGWでコンパイルに成功したかたいますか? ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、 実行すると異郷終了します そもそもqdbmのmake checkでvtestが失敗するようで、 コンパイルできないのが正しいんでしょうか? 一応バイナリ版のqdbmを持ってきて実行しても やはりインデックス作成で異常終了してしまいました なにかポインタがあれば教えてください http://mevius.5ch.net/test/read.cgi/unix/1176807372/279
280: 名無しさん@お腹いっぱい。 [sage] 2011/04/14(木) 21:08:55.94 大文字小文字を区別して検索できるようにして欲しい http://mevius.5ch.net/test/read.cgi/unix/1176807372/280
281: 名無しさん@お腹いっぱい。 [sage] 2011/04/17(日) 12:28:30.18 インデックスがでかくなってくると速度落ちないですか? 回避する方法ありますか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/281
282: 281 [] 2011/04/17(日) 12:31:21.73 >>251も自分だ。10ヶ月ほど前にも書き込んでたが。 解決策見つからず。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/282
283: 名無しさん@お腹いっぱい。 [sage] 2011/05/07(土) 18:02:40.44 >>251,281-282 この遅くなるって、 c:\hyperestraier\estcmd: INFO: flushing index words: name=index ... ってでてディスク凄いアクセスするようになって遅くなって感じですか? 自分は上記のような感じで ファイル数12500、総サイズ1.33G程度のHTMLファイルを スキャンし終わるまで14分位かかってしまいます。 オプションとしては次のようにしているのですが・・・ gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400 http://mevius.5ch.net/test/read.cgi/unix/1176807372/283
284: 名無しさん@お腹いっぱい。 [sage] 2011/05/11(水) 20:07:25.33 もう見てる人居ないんだろうか http://mevius.5ch.net/test/read.cgi/unix/1176807372/284
285: 名無しさん@お腹いっぱい。 [sage] 2011/05/11(水) 20:21:05.25 見てるけど、開発が止まっちゃってて新しい話題がないよなー http://mevius.5ch.net/test/read.cgi/unix/1176807372/285
286: 名無しさん@お腹いっぱい。 [sage] 2011/05/12(木) 05:31:56.98 一応チェックリストには入れてる http://mevius.5ch.net/test/read.cgi/unix/1176807372/286
287: 名無しさん@お腹いっぱい。 [sage] 2011/05/13(金) 19:03:09.08 namazu と これくらいかー? 使える全文検索は。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/287
288: 名無しさん@お腹いっぱい。 [] 2011/07/13(水) 06:07:12.29 luceneで決まりだろ http://mevius.5ch.net/test/read.cgi/unix/1176807372/288
289: 名無しさん@お腹いっぱい。 [sage] 2011/07/13(水) 16:35:33.19 クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか? 全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。 何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。 query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な 結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/289
290: 名無しさん@お腹いっぱい。 [] 2011/07/19(火) 00:44:48.88 今はkyotoだっけtokyoだっけ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/290
291: 名無しさん@お腹いっぱい。 [sage] 2011/07/19(火) 12:55:07.65 作者がmixiからgoogleにいったよね http://mevius.5ch.net/test/read.cgi/unix/1176807372/291
292: 名無しさん@お腹いっぱい。 [sage] 2011/07/19(火) 14:38:11.73 >>291 へえ、ついに検索の総本山へか http://mevius.5ch.net/test/read.cgi/unix/1176807372/292
293: 名無しさん@お腹いっぱい。 [] 2011/08/13(土) 15:26:49.80 え?自分で会社作ってたんじゃなかったっけ?? http://mevius.5ch.net/test/read.cgi/unix/1176807372/293
294: 名無しさん@お腹いっぱい。 [sage] 2011/08/15(月) 10:45:08.18 失敗したんだって http://mevius.5ch.net/test/read.cgi/unix/1176807372/294
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 39 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.912s*