全文検索エンジン Hyper Estraier 2 (333レス)
全文検索エンジン Hyper Estraier 2 http://mevius.5ch.net/test/read.cgi/unix/1176807372/
上
下
前
次
1-
新
通常表示
512バイト分割
レス栞
113: 名無しさん@お腹いっぱい。 [sage] 2008/04/18(金) 17:38:32 >>111 GNU pth というのがあったとですか。勉強になりました。 でも本当の UNIX系OSではなくて UNIXエミュレーション環境なので pth では無理かも。 ともかく調べてみます。ありがとね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/113
114: 名無しさん@お腹いっぱい。 [sage] 2008/04/24(木) 09:09:51 インデックス作成していたらout of memoryで止まるorz 物理メモリ1GB、仮想メモリ1.4GB使い切る・・・ -ftなんか使う物じゃないんだろうか javaとかのソースコードも見たいんだけどなぁ・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/114
115: 名無しさん@お腹いっぱい。 [sage] 2008/04/24(木) 23:32:59 インデックス対象に Excel ファイルとか含まれてる? Excel のせいでメモリ不足になってるならこういう話がある http://pmakino.jp/tdiary/20070501.html#p01 http://mevius.5ch.net/test/read.cgi/unix/1176807372/115
116: 名無しさん@お腹いっぱい。 [sage] 2008/04/25(金) 00:03:50 なるほど。参考になりました。 大学の研究室のファイルサーバ(約600GB)の検索用に導入しようと試みているんですが 実験のログやそれをとりまとめたxls、論文のdocやpdf、プレゼン用のppt(x)に 実験プログラムなどなど混沌としているため目的のファイルを探すのが容易になればと・・・ -ftじゃなくて.javaなどもテキストファイルとして認識するようにどこか変更すればいいんだろうか。 がんばっていろいろいじってみます http://mevius.5ch.net/test/read.cgi/unix/1176807372/116
117: 名無しさん@お腹いっぱい。 [] 2008/05/05(月) 21:20:24 KaMailV3でH.E使っているんですが、mh形式のメールを登録したときに、メール内の添付ファイル名で検索することってできるんでしょうか。 H.E単体で、できないものであれば、あきらめようと思っていますが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/117
118: 名無しさん@お腹いっぱい。 [sage] 2008/05/12(月) 02:11:46 Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、 デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、 似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。 (例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか) 何かオプションを指定するなどしてヒットしたすべてのファイル、 あるいは上位何件かのファイルのスニペットを表示させる、 ということはできないのでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/118
119: 名無しさん@お腹いっぱい。 [sage] 2008/06/15(日) 02:36:39 Tokyo Estraier http://hyperestraier.sourceforge.net/past/?M=A てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、 実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。 今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。 これで実運用してる人とかいるかな? まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。 http://tokyocabinet.sourceforge.net/dystopiadoc/ http://mevius.5ch.net/test/read.cgi/unix/1176807372/119
120: 名無しさん@お腹いっぱい。 [sage] 2008/06/15(日) 18:21:12 壊れやすいよね。 問題なのは壊れたのに気づかないという・・・ リペアしてもリペア出来てないという・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/120
121: 名無しさん@お腹いっぱい。 [sage] 2008/06/16(月) 18:24:46 検索結果をXMLで受け取りたいときはどうしたらいいの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/121
122: 名無しさん@お腹いっぱい。 [sage] 2008/06/16(月) 18:35:51 estcmd なら estcmd search に -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。 ってマニュアルに書いてあるよ。 それ以外は自分でAPI使ってXML返すプログラムを作るってのが 本来の使い方だろうね。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/122
123: 名無しさん@お腹いっぱい。 [sage] 2008/06/16(月) 18:54:39 APIつくらないとダメかなぁ〜 http://mevius.5ch.net/test/read.cgi/unix/1176807372/123
124: 名無しさん@お腹いっぱい。 [] 2008/06/22(日) 17:24:43 256Mのバーチャルサーバーで動かしてます。 検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。 どれくらいのメモリがあれば使えるものですか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/124
125: 名無しさん@お腹いっぱい。 [sage] 2008/06/22(日) 23:17:58 128M の玄箱 HG でも動いているが… なんか使い方おかしいんじゃね? http://mevius.5ch.net/test/read.cgi/unix/1176807372/125
126: 名無しさん@お腹いっぱい。 [sage] 2008/06/23(月) 00:00:57 >>124 バーチャルサーバのスワップはちゃんととってます? http://mevius.5ch.net/test/read.cgi/unix/1176807372/126
127: 名無しさん@お腹いっぱい。 [sage] 2008/06/23(月) 06:32:14 検索対象拡張子を追加するにはどこいじればいいんだろう? .javaとかをテキストとして処理するようにしたいんだが・・・ http://mevius.5ch.net/test/read.cgi/unix/1176807372/127
128: 124 [sage] 2008/06/23(月) 16:57:29 バーチャルサーバのスワップ? どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです _conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。 _confにメモリ周辺の設定ってありましたっけ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/128
129: 名無しさん@お腹いっぱい。 [] 2008/06/24(火) 02:03:12 .netからDLLを利用しようと思ってます。 が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、 メモリ解放ができません。 内部で完結するよう関数追加してビルドしなおししかないでしょうか? http://mevius.5ch.net/test/read.cgi/unix/1176807372/129
130: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 21:40:22 DTDって変更したいときは任意の場所に出来るのかな? デフォルトのファイルを書き換えるだけ? http://mevius.5ch.net/test/read.cgi/unix/1176807372/130
131: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 22:14:59 >>129 どうしたいのか分からんが、間にラッパーを かませればいいんじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/131
132: 名無しさん@お腹いっぱい。 [sage] 2008/06/24(火) 23:50:56 >>131 はい、ラッパー作った方がいいと思います。 ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。 UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。 とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。 ギャザラはDLL使うのでなんとも不格好なんですが。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/132
133: 名無しさん@お腹いっぱい。 [sage] 2008/06/25(水) 10:35:07 freeをcrtからインポートすればいいだけじゃないの? http://mevius.5ch.net/test/read.cgi/unix/1176807372/133
134: 名無しさん@お腹いっぱい。 [sage] 2008/06/26(木) 01:02:03 makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね どうもありがとうございました。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/134
135: 名無しさん@お腹いっぱい。 [sage] 2008/07/08(火) 20:51:02 質問です。 windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、 配布されているバイナリパッケージにRubyバインディングが見当たりません。 Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、 Rubyバインディングのmakeでコケます。 windowsでは無理? http://mevius.5ch.net/test/read.cgi/unix/1176807372/135
136: 名無しさん@お腹いっぱい。 [sage] 2008/07/12(土) 09:15:52 どうコケのかを言わずに、どう答えて欲しいんだろう http://mevius.5ch.net/test/read.cgi/unix/1176807372/136
137: 名無しさん@お腹いっぱい。 [sage] 2008/07/12(土) 17:24:10 >>135 お前にゃ無理だ。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/137
138: 名無しさん@お腹いっぱい。 [] 2008/07/24(木) 13:28:58 ショボ頭の自分助けて… pdfをインデックス化したいんですけど、30MB超えるpdfだと、 文章の途中までしかインデックス化してくれません。。 特にエラーとか出てないんですけどなんでだろ? $ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ 一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、 マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、 こんなバカ助かるかな? http://mevius.5ch.net/test/read.cgi/unix/1176807372/138
139: fumiyas [] 2008/07/25(金) 12:27:12 >>138 estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから 「262144」の部分を適当に多くしてみるとどう? http://mevius.5ch.net/test/read.cgi/unix/1176807372/139
140: fumiyas [] 2008/07/25(金) 12:55:11 >>114 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。 お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;) … その前に Tokyo Estraier を試してみようかしら? http://mevius.5ch.net/test/read.cgi/unix/1176807372/140
141: 名無しさん@お腹いっぱい。 [] 2008/07/25(金) 15:21:53 >>139 うぅ、バカに救いの手をありがとうございます。orz 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| ( -t 10 => 500とかもしてみたけどダメだった…) なにげに、 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ すまん、かえって混乱させてるかも。。 というか、自分混乱してる。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/141
142: fumiyas [] 2008/07/26(土) 02:26:06 >>141 ああ、わかった…。(たぶん) pdftotext のバグですね。 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output の部分を: pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ | output とでも書き換えてみてください。(これだと「pre」が単語として登録されてしまうが…。) # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext # chmod 755 /usr/bin/estfxpdftotext とでもして、 $ estcmd gather -cl -fx ".pdf" "T@estfxpdftotext" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ とするとか。 http://mevius.5ch.net/test/read.cgi/unix/1176807372/142
メモ帳
(0/65535文字)
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 191 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
Google検索
Wikipedia
ぬこの手
ぬこTOP
0.019s