全文検索エンジン Hyper Estraier 2 (333レス)
1-

113: 2008/04/18(金)17:38 AAS
>>111
GNU pth というのがあったとですか。勉強になりました。
でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。
ともかく調べてみます。ありがとね。
114
(1): 2008/04/24(木)09:09 AAS
インデックス作成していたらout of memoryで止まるorz
物理メモリ1GB、仮想メモリ1.4GB使い切る・・・
-ftなんか使う物じゃないんだろうか
javaとかのソースコードも見たいんだけどなぁ・・・
115: 2008/04/24(木)23:32 AAS
インデックス対象に Excel ファイルとか含まれてる?
Excel のせいでメモリ不足になってるならこういう話がある
外部リンク[html]:pmakino.jp
116: 2008/04/25(金)00:03 AAS
なるほど。参考になりました。

大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが
実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に
実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・

-ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。

がんばっていろいろいじってみます
117: 2008/05/05(月)21:20 AAS
KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。
H.E単体で、できないものであれば、あきらめようと思っていますが。
118: 2008/05/12(月)02:11 AAS
Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、
デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、
似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。
(例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか)

何かオプションを指定するなどしてヒットしたすべてのファイル、
あるいは上位何件かのファイルのスニペットを表示させる、
ということはできないのでしょうか?
119: 2008/06/15(日)02:36 AAS
Tokyo Estraier 外部リンク:hyperestraier.sourceforge.net
てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、
実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。
今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。
これで実運用してる人とかいるかな?

まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。
外部リンク:tokyocabinet.sourceforge.net
120: 2008/06/15(日)18:21 AAS
壊れやすいよね。
問題なのは壊れたのに気づかないという・・・
リペアしてもリペア出来てないという・・・
121: 2008/06/16(月)18:24 AAS
検索結果をXMLで受け取りたいときはどうしたらいいの?
122: 2008/06/16(月)18:35 AAS
estcmd なら estcmd search に
 -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。
ってマニュアルに書いてあるよ。

それ以外は自分でAPI使ってXML返すプログラムを作るってのが
本来の使い方だろうね。
123: 2008/06/16(月)18:54 AAS
APIつくらないとダメかなぁ〜
124
(2): 2008/06/22(日)17:24 AAS
256Mのバーチャルサーバーで動かしてます。
検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。

どれくらいのメモリがあれば使えるものですか?
125: 2008/06/22(日)23:17 AAS
128M の玄箱 HG でも動いているが…
なんか使い方おかしいんじゃね?
126: 2008/06/23(月)00:00 AAS
>>124
バーチャルサーバのスワップはちゃんととってます?
127: 2008/06/23(月)06:32 AAS
検索対象拡張子を追加するにはどこいじればいいんだろう?
.javaとかをテキストとして処理するようにしたいんだが・・・
128: 124 2008/06/23(月)16:57 AAS
バーチャルサーバのスワップ? 

どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです

_conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。
_confにメモリ周辺の設定ってありましたっけ?
129
(1): 2008/06/24(火)02:03 AAS
.netからDLLを利用しようと思ってます。
が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、
メモリ解放ができません。
内部で完結するよう関数追加してビルドしなおししかないでしょうか?
130: 2008/06/24(火)21:40 AAS
DTDって変更したいときは任意の場所に出来るのかな?
デフォルトのファイルを書き換えるだけ?
131
(1): 2008/06/24(火)22:14 AAS
>>129
どうしたいのか分からんが、間にラッパーを
かませればいいんじゃないの?
132: 2008/06/24(火)23:50 AAS
>>131
はい、ラッパー作った方がいいと思います。
ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。
UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。

とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。
ギャザラはDLL使うのでなんとも不格好なんですが。
133: 2008/06/25(水)10:35 AAS
freeをcrtからインポートすればいいだけじゃないの?
134: 2008/06/26(木)01:02 AAS
makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね
どうもありがとうございました。
135
(1): 2008/07/08(火)20:51 AAS
質問です。
windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、
配布されているバイナリパッケージにRubyバインディングが見当たりません。
Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、
Rubyバインディングのmakeでコケます。

windowsでは無理?
136: 2008/07/12(土)09:15 AAS
どうコケのかを言わずに、どう答えて欲しいんだろう
137: 2008/07/12(土)17:24 AAS
>>135
お前にゃ無理だ。
138
(1): 2008/07/24(木)13:28 AAS
ショボ頭の自分助けて…

pdfをインデックス化したいんですけど、30MB超えるpdfだと、
文章の途中までしかインデックス化してくれません。。
特にエラーとか出てないんですけどなんでだろ?

$ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./

一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、
マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、
こんなバカ助かるかな?
139
(1): fumiyas 2008/07/25(金)12:27 AAS
>>138

estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから
「262144」の部分を適当に多くしてみるとどう?
140: fumiyas 2008/07/25(金)12:55 AAS
>>114
うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。
お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;)

… その前に Tokyo Estraier を試してみようかしら?
141
(1): 2008/07/25(金)15:21 AAS
>>139

うぅ、バカに救いの手をありがとうございます。orz
少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、
値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○|||
( -t 10 => 500とかもしてみたけどダメだった…)

なにげに、
$ pdftotext -enc UTF-8 -htmlmeta "pdfファイル"
これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。

新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、
「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
省2
142
(2): fumiyas 2008/07/26(土)02:26 AAS
>>141

ああ、わかった…。(たぶん)
pdftotext のバグですね。

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output

の部分を:

pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \
|sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \
| output
省6
1-
あと 191 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.457s*