全文検索エンジン Hyper Estraier 2 (329レス)
1-

181: 2009/02/13(金)23:47 AAS
Windows版のバイナリ落としてindexだけはコマンドで作ってみたんですが
JavaのAPI使ってファイル検索や全文検索を行うサンプルコードが載って
いるサイトとかってないですかね?
web環境ないのでSwingから直で操作したいのですがAPIの使い方がよくわかりません・・
初歩的な質問ですいません。
182
(2): 2009/02/23(月)06:47 AAS
Unix板なのに申し訳ないのですが、Ubuntu Intrepid64bit版を使っています。
mecabを組み込みたかったのでソースからビルドしましたが、ライブラリとしてregexp.hだけ認識されないのでビルドできません。
32bitの時も同様だったのですが、こちらはネットでダウンロードしたライブラリをつっこんでインストール迄無事に成功しました。
aptitude search lib | grep -i regexp などで見つけたものを次々インストールしてみましたが全くお手上げです。
必要なライブラリについてご存知の方いませんか?
183
(1): 2009/02/23(月)09:04 AAS
>>182
やったの去年だからよく覚えてないけど
ふつーのUbuntuならソフトウェアの一覧に普通に入っていた気がする
184
(1): 2009/02/23(月)17:49 AAS
aptで入るね
185: 182 2009/02/24(火)06:22 AAS
>>183-184
レス有難うございます、結局手順を忘れていただけで、32bit版でと同様の事をすればいいだけですんなりビルド成功。
aptでlibc-dev(これですよね?)を入れてもlibregex.aがないので、外部リンク:arglist.comからregex3.8a.tar.gzを落してビルドし~/lib ~/includeに放り込む。
似たような事で困っている方は試してみて下さい。
どうもお騒がせしました。
186
(1): 2009/08/28(金)12:40 AAS
作者ページのタイトルがうざくなってるんだが、改ざんされたのかな
187: 2009/08/28(金)13:43 AAS
特に変わったようには見えないが。
> Last-Modified: Tue, 25 Dec 2007 01:47:27 GMT
だし。
188: 2009/08/28(金)20:25 AAS
>>186
ソースみてみ。アクセスしたタイミングで表示されるものが変わるようになってる。
しかし作者タソはmixiに就職してからH.E.のほうには全然顔出さなくなったな。
189: 2009/08/28(金)22:37 AAS
ソース見てみた、何じゃこりゃ。

> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
190: 2009/08/31(月)10:17 AAS
> From: [783] 名無しさん@お腹いっぱい。 <sage>
> Date: 2006/09/17(日) 07:52:41
>
> case 59: name = "ちょwwwおまwwwいごww"; break;
> case 61: name = "どう見ても超迷子です本当にありがとうございました"; break;
191: 2009/11/09(月)16:22 AAS
検索してもHitしないってことはなにが考えられるのかな?
登録文書に検索語句は確実にあるし、DBも壊れていない・・・
192
(1): 2009/11/09(月)18:02 AAS
ごめん、壊れてたみたい。
estcmd inform で壊れてるかどうかわかんないんだよなあ・・・
193
(1): 2009/11/15(日)00:49 AAS
>>192
そうなの?おれもestcmd inform で情報出てきたら平気だと思ってた。
どうやって壊れてる判定したの?
194: 2009/11/15(日)01:54 AAS
>>193
絶対に登録文書にある文字列を検索しても出てこなかったので。
再構築で直りました。
インデックスが壊れているかどうか調べるコマンドが欲しい。
195
(1): 2009/11/18(水)06:15 AAS
estcmd repair を、時々やらないと駄目ってことですかね。
(-_-;ウーン たまに治らないときもあるし..

-- 追記お願いします m(_ _"m)ペコリ---------
【テク1】ノードマスタが再起動しない・・正常に停止しないとこうなる
 サーバールートDirの _pid _stop の削除

【テク2】DBが?でるっぽい
#estcmd repair index_path

ex.ノードサーバー利用時は(サーバールートをcasketなら)
#estcmd repair casket/_node/ノード名

【テク3】estwaver crawl時の「could not open」エラーの解決法
クローラールートディレクトリを crawl_dir と仮定して Code:
#cd crawl_dir
#estcmd repair _index
#dpmgr repair _trace/0001/depot
#dpmgr repair _trace/0002/depot
#dpmgr repair _trace/0003/depot
196: 2009/11/18(水)16:56 AAS
>>195
>>estcmd repair を、時々やらないと駄目ってことですかね。
repairを一回やってみたんだ。直ったかなと思って、それでも念の為に
もう一回repairしてみたんだ。登録文書がごっそり減ったんだ。
repairを繰り返す度に減っていくんだ・・・

あきらめて再構築したよ。
197
(1): 2009/11/19(木)05:41 AAS
>repairを繰り返す度に減っていくんだ・・・

((( ;゚Д゚)))ガクガクブルブル 

「特定のキーワードにヒットしたを、DBから削除する」 なんてことできますか?

「特定のキーワードにヒットさせない」でもいいかなー
198
(2): 2009/11/20(金)08:54 AAS
Estraierで2chのログファイルを全文検索してJaneで表示できないでしょうか。
DATファイルを全文検索に入れるだけじゃなくて、名前やスレタイで絞り込めれば最高なのですが。

DesktopHEで利用しようとしております。
199: 2009/11/20(金)14:16 AAS
>>197
私も探してみたけど、そのものは無いみたい。
よくやる作業ならcgiとか作るんじゃないかな。

コマンドから手作業するときは、例えばこんな感じ。
消したいやつを検索して
estcmd search -vu -attr '@uri STRINC /path/to/del/' _index BadWord
OKなら上のコマンドに以下を追加
|awk '$1 ~ /^[0-9]+/{print $1}' |while read id; do estcmd out -cl _index $id; done
200
(1): 2009/11/20(金)16:26 AAS
>>198
出来ないことはないと思うけど、面倒くさいかもね。dat2htmlのフィルタ作って読みこませて、
DesktopHEの関連付けはjaneにすればいいみたいな。

私はhtmlに変換してブラウザで全文検索してる。そういう人の方が多いと思うけど。
201
(1): 2009/11/20(金)22:49 AAS
>>200
速レスありがとう。
htmlに変換してって毎日巡回するたびにdat2html走らせてるの?
それとも真夜中にバッチ処理?

いずれにせよ、HDD容量が倍必要ですよね?
202
(1): 2009/11/21(土)12:31 AAS
>>201
>>毎日巡回するたびにdat2html走らせてるの?
そうだよ。1時間ごとにdat2htmlを走らせてる。ロードアベレージを見て負荷が大きいときは処理しないようにしている。
ログは8GBくらいある。datファイルは定期的に削除している。
ウェブブラウザから検索できるので、LAN内で利用出来て重宝している。
203: 2009/11/21(土)23:28 AAS
>>202
うちもログは6Gぐらいあります。
全部変換するとなると15gぐらいいきそうですよねorz

Windowsだからロードアベレージ監視できないのと、指定したコテハンがNASDAQについて
レスした発言とかを知りたくても特定がとてつもなく難しいのがネックになりそう。

Threadsearchと併用しないと駄目ですかね。
204: 2009/11/27(金)00:40 AAS
XREAで設置しようとしたけど、インストールの段階で躓いたorz
cannot find -liconvとかでてきてるし・・・

libiconvの入れ方に問題があるのかなぁ・・・。
205: 2010/01/07(木)21:28 AAS
某サイト丸ごと吸い上げようと、
クローラーの設定seeddepthを50にしたら、5時間かかっても1つもインデックスできなかった...

種文書を全部吸い上げてからインデックスするとは知らんかった。
seeddepth1〜2でよさそうね。
206
(1): 2010/01/15(金)16:12 AAS
Hyper Estraier のwinを使っている方に質問です。

当方初心者。
インストール、インデックス作成まではできました。なんとか。

しかし、estseek.confの内容変更の段で(だと思ってるんですが・・・)つまづいています。
replaceの行の変更はどのようにしたらよろしいのか教えていただけないでしょうか?

何卒よろしくお願いいたします。
207: 2010/01/16(土)02:43 AAS
>>206
win版も使ったことはありますが、それだけでは何がなんだか分かりません。
estcmd inform casket は通りますか?
Hyper Estraier の画面は出るのですか?
表示のどこかに不満があるのですか?
どうなって欲しくて、現状どうなっているのか書いてください。
208: 2010/01/18(月)15:45 AAS
ゴミのような2chのログも、こいつを使うと宝の山になる。
はらしょー
209
(1): 2010/02/05(金)14:01 AAS
Hyper Estraier 1.4.10(Win)を利用している者です。

ブラウザの検索結果画面のリンクをクリックしてもジャンプしないという経験をした方はいないでしょうか?
今、その状態です。

検索結果画面のソースを丸々コピーしたhtmlファイルを作成し、それをブラウザに表示し、リンクをクリックすれば目的の文書にジャンプします。
すごく不思議な感じです。ブラウザはIE、sleipnirで確認しました。

どのようにすればジャンプするようになるかおわかりの方、教えていただけないでしょうか?
これは、もうhtmlの問題に過ぎないような気もしますが、よろしくお願いいたします。
210
(1): 2010/02/05(金)22:04 AAS
文字コードの問題じゃね?
211
(1): 2010/02/07(日)17:19 AAS
鯖、HEてよりは、ブラウザ、クライアントの問題ぽく聞こえる。
212: 209 2010/02/08(月)08:11 AAS
>>211
ブラウザは、他にオペラも試しました。同じ結果でした。
クライアントも4人分のLAN接続しているPCから試しました。同じ結果でした。

>>210
仮に文字コードの問題なら、対処法はありますでしょうか?

何卒よろしくお願いいたします。
213
(1): 2010/02/08(月)20:12 AAS
まずは、本当に文字コードの問題かどうかを確かめるべきです
フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出して
それをブラウザから開くことができれば、文字コードの問題だと思います
214: 209,212 2010/02/09(火)08:13 AAS
>>213
>フォルダ名からファイル名まで完全に英数文字だけのファイルをわざと検索結果として出し

やってみました。ダメでした。相変わらずジャンプしてくれません。

考えるに、estseek.conf の replace設定なのかな、と。
これについては、自分でも自信がなかったので、下記に示します。
当方の場合、c:\の直下に「server」のフォルダを作成し、そこに「estseek.cgi」、「casket」等を入れております。

−−−−−−−−−−−−−−−−−−−−−−−−−−−
replace: ^file:///c:\server\{{!}}外部リンク:127.0.0.1
replace: /index\.html?${{!}}/
−−−−−−−−−−−−−−−−−−−−−−−−−−−
このような記載でよろしいのでしょうか?
215: 209,212,214 2010/02/09(火)16:47 AAS
追記します。

estseek.conf のreplace設定を見直してみました。
試行錯誤の結果、
−−−−−−−−−−−−−−−−−−−−−−−−−−−
replace: file:///c|/server/{{!}}http://サーバPCのIPアドレス/
replace: /index\.html?${{!}}/
−−−−−−−−−−−−−−−−−−−−−−−−−−−
とすることによりまして、
検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、

http://サーバPCのIPアドレス/|http://サーバPCのIPアドレス/・・・・・

となりました。
この、「|」を挟んで繰り返される「http://サーバPCのIPアドレス/」の最初の方、および「|」が消えるようになれば、正常動作するような気がします。

これらを消す、なにか良い方法がありましたら教えていただければ助かります。
216
(1): 2010/02/09(火)20:47 AAS
replaceの設定は元の設定で問題ない感じがします。

むしろ、showlrealの設定が falseの設定になっていると、
当該現象が発生するように思われます。こちらでも、
同様の現象を確認しました。unix で 1.4.13ですが。
217
(1): 2010/02/09(火)21:38 AAS
こちらでは、ジャンプしない現象も、その後に改善した状況も確認できました。

replace行を拝見すると、C:\server\ 部分のエスケープがされてないようです。
正しくは、C:\\server\\ではないでしょうか?

そして、C:\\server\\の配下に、実際の検索したいデータが存在する必要があります。estseek.cgiや indexファイルではありません。

showlrealの変更で、ジャンプの可否が確認できたら、この行を修正する必要があります。

以下マニュアルより
-------------
replaceは正規表現によってURIを変換するのに使います。複数回指定できます。
先頭にマッチする「^」を駆使すれば接頭辞(ディレクトリ)の変換ができますし、末尾にマッチする

「$」を駆使すれば接尾辞(拡張子)の変換ができます。例えば、「\.htm${{!}}.html」とすると、末尾の「.htm」を「.html」に変換できます。

「{{!}}」の前の部分は正規表現なので、「\」や「.」にはエスケープ文字「\」を前置する必要があることに注意してください。「{{!}}」の後の置換文字列は正規表現ではないので、エスケープは必要ありません。
--------------
218: 209,212,214,215 2010/02/10(水)07:57 AAS
>>216
showlreal を「true」にしてみましたが、状況は変わりませんでした。
ジャンプする、しないの問題でいえば、pdfの文書ファイルはジャンプすることが確認されました。
.htmがなぜかジャンプしないのです。

>>217
C:\\server\\と記載し、やってみました。
すると、検索結果の画面に緑色で表示される、ヒットした文書ファイルの所在の表示が、
c:\server\search\・・・・・
となりました。

htmの文書へは、ジャンプしてくれません。
仮にジャンプしてくれても、LAN内のPCからアクセスした場合、当該文書にアクセスできません。
やはり、http://サーバPCのIPアドレス/・・・のように表示されなくてはならないと思います。

まだまだ試行錯誤中・・・
219: 2010/02/10(水)08:56 AAS
つーかさ、やってることの意味分かってやってる?
別に「そうしないと君のためにならないよ」なんてくだらない説教をしたいからではなく、
何が分かって何が分からなかったのかを言ってくれないと、どこから説明すればいいのか、
どこを質問すればいいのかを、こっちは全部エスパーしなくちゃならないんだよ。
困ってるのは分かってるから、せめて情報の出し惜しみはしないでくれ。

# 素直に読むと、何も分かってない、replace行の動作の意味や正規表現とはなんぞやを
# すべて説明しなくちゃならないように思えるんだけど..... もしかしてそうなの?
220: 2010/02/23(火)20:50 AAS
これって英語の検索もはやくなるの?
221: 2010/02/24(水)00:09 AAS
もちろん早くなるけど、普通に使うと hyper で hyper estraier には引っかかるけど、hyperestraier には引っかかりません
そういうのを引っかけるようにするにはワイルドカードを使うなど工夫しなくてはなりません
222: 2010/02/24(水)12:18 AAS
外部リンク:www.seg.rmit.edu.au
英語で使うだけならこっちの方が速かったりする?
223: 2010/02/24(水)12:50 AAS
なんだ、宣伝かよ
224: 2010/02/24(水)16:57 AAS
日本語で最速なのはこれっぽいけど
英語で最速なのがどれなにか知りたかったんだ
225: 2010/03/08(月)21:40 AAS
亀レスにもほどがあるがズバリそのものがあります。

>>198
Datファイル全文検索ソフト
外部リンク:frozenlib.net
>DatEはHyperEstraierを使用してJaneのログを高速に検索するソフトです。
226: 2010/03/16(火)22:31 AAS
「file size limit exceeded」で、いきなりダウンしたよ。

システムによって2Gとかのファイル制限あるから、
logファイルの大きさには注意しましょ。
ログの記録レベルを煽りましょう〜
227: 2010/03/25(木)00:58 AAS
indexサイズが小さくて、もれなく検索できればいい。
あと書庫内検索。重要度順位は入らんから不足無しで出るのが良い。
web用途ではなくデスクトップで使うには
書庫内と不足なしが大事。
順位は無くて良い。開いてみれば済むからな。
これはそういう使い方出来る?
228: 2010/03/25(木)01:06 AAS
複雑なアルゴリズムはいらない。
Grepの手助け程度で良い。
書庫に対応する。
いいやつ無いですか?
229: 2010/03/25(木)02:01 AAS
フィルタ書けばいいじゃん。
230: 2010/03/25(木)07:11 AAS
全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、
231
(1): 2010/03/25(木)07:29 AAS
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
232: 2010/03/25(木)07:31 AAS
何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/

# 思いついた単語を羅列してるだけみたいだけど在日?
233: 2010/03/25(木)10:19 AAS
脊髄反射で在日とか言うネトウヨ?
234: 2010/03/26(金)11:17 AAS
ということにしたいのですね。
235: 2010/03/26(金)12:04 AAS
いいえ、自分が理解できないだけなのを認めたくないだけです。
236: 2010/03/26(金)13:35 AAS
ということにしたいのですね。
237: 2010/03/26(金)13:56 AAS
はい。
238
(1): 2010/03/26(金)14:41 AAS
>>231
外部リンク[html]:hyperestraier.sourceforge.net
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな
239: 2010/03/26(金)15:22 AAS
分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか?
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では?

元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238
240: 2010/03/26(金)20:42 AAS
サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。
241: 2010/03/26(金)23:42 AAS
ちょwまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ
242: 2010/03/26(金)23:58 AAS
数ギガ、数十ギガとデータあったらどうする?
243: 2010/03/27(土)00:22 AAS
もうその話あきた。よそでやれ
244: 2010/04/14(水)09:33 AAS
mixiで公開してる東京なんとか
とかいう奴はこれの上位版?
245: 2010/04/14(水)11:36 AAS
TokyoCabinetは検索エンジンというよりそのバックエンド、かな?
246: 2010/05/01(土)16:32 AAS
これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね
247: 2010/05/19(水)20:34 AAS
hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるw
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。
248: 2010/05/21(金)21:40 AAS
公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか?
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。

要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。
249
(2): 2010/05/24(月)12:53 AAS
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
外部リンク[html]:hyperestraier.sourceforge.net

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
250: 2010/05/26(水)02:11 AAS
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
251
(2): 2010/06/01(火)20:00 AAS
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。
252
(1): 2010/06/02(水)19:06 AAS
複数ファイルの書庫をディレクトリと認識するエンジンありますか
253: 2010/06/03(木)13:20 AAS
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
254: 2010/06/03(木)16:48 AAS
サンクス
255: 2010/06/04(金)20:57 AAS
AA省
256: 2010/06/05(土)22:13 AAS
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
257: 2010/06/14(月)16:45 AAS
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
258: 2010/06/28(月)10:43 AAS
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
259
(1): 2010/08/05(木)03:31 AAS
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..
260: 2010/08/05(木)04:16 AAS
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。
261: 2010/08/05(木)17:19 AAS
TCって、KVSじゃないの?
262
(1): 2010/08/15(日)12:35 AAS
TCは全文検索できるよ。
263
(2): 2010/09/22(水)22:13 AAS
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。
264
(1): 2010/09/22(水)22:16 AAS
>>262
データ量多くなるとまともに使えなくなるけどなw
265
(1): 2010/09/23(木)01:38 AAS
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
266: 2010/09/23(木)02:49 AAS
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
267: 2010/09/23(木)19:36 AAS
作ってる本人も遅いって言ってた気がする。
268: 265 2010/09/23(木)20:30 AAS
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
269
(1): 2010/10/07(木)04:14 AAS
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
270: 2010/10/09(土)17:47 AAS
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
271
(1): 2010/10/11(月)12:23 AAS
>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。
272: 2010/10/27(水)20:48 AAS
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
273: 2010/10/30(土)15:19 AAS
誰かこの問題をHyper Estraier でも起きないか検証してくれw
外部リンク:uinyan.com
274: 2010/11/16(火)15:09 AAS
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
275: 2011/02/10(木)08:37 AAS
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
276
(1): 2011/02/10(木)09:36 AAS
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
277
(1): 2011/02/10(木)13:07 AAS
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
278: 2011/02/10(木)13:47 AAS
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。
279: 2011/02/10(木)23:56 AAS
最近のMinGWでコンパイルに成功したかたいますか?

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください
280: 2011/04/14(木)21:08 AAS
大文字小文字を区別して検索できるようにして欲しい
1-
あと 49 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.010s