全文検索エンジン Hyper Estraier 2 (333レス)
上下前次1-新
118: 2008/05/12(月)02:11 AAS
 Windowsバイナリ版1.4.9を数台のPCに設置&P2P連携し、 
 デフォルトの検索インターフェイスやコマンドラインからメタ検索をしているのですが、 
 似た内容のファイルが複数ヒットすると数件しかスニペット表示されません。 
 (例えば、5件のファイルがヒットしてもスニペット表示されるのは1件だけとか) 
  
 何かオプションを指定するなどしてヒットしたすべてのファイル、 
 あるいは上位何件かのファイルのスニペットを表示させる、 
 ということはできないのでしょうか? 
119: 2008/06/15(日)02:36 AAS
 Tokyo Estraier 外部リンク:hyperestraier.sourceforge.net 
 てさ、0.0.1とかいうバージョン番号のせいで内容を見る気になってなかったんだけど、 
 実際見てみたら HE 1.4.13 で Tokyo Cabinet を使えるようにしたものなんだね。 
 今まではQDBMが壊れやすいせいでHEを敬遠してたのだけど、これは良いかも。 
 これで実運用してる人とかいるかな? 
  
 まあ本命は Tokyo Dystopia なんだけどさ。Rubyバインディングとかつくってほしいなあ。 
 外部リンク:tokyocabinet.sourceforge.net
120: 2008/06/15(日)18:21 AAS
 壊れやすいよね。 
 問題なのは壊れたのに気づかないという・・・ 
 リペアしてもリペア出来てないという・・・ 
121: 2008/06/16(月)18:24 AAS
 検索結果をXMLで受け取りたいときはどうしたらいいの? 
122: 2008/06/16(月)18:35 AAS
 estcmd なら estcmd search に 
  -vxを付けると、属性情報とスニペットをXML形式にして結果を出力します。 
 ってマニュアルに書いてあるよ。 
  
 それ以外は自分でAPI使ってXML返すプログラムを作るってのが 
 本来の使い方だろうね。
123: 2008/06/16(月)18:54 AAS
 APIつくらないとダメかなぁ〜
124(2): 2008/06/22(日)17:24 AAS
 256Mのバーチャルサーバーで動かしてます。 
 検索時はメモリオーバーになるらしく、プロセスがKILLされまくります。 
  
 どれくらいのメモリがあれば使えるものですか? 
125: 2008/06/22(日)23:17 AAS
 128M の玄箱 HG でも動いているが… 
 なんか使い方おかしいんじゃね? 
126: 2008/06/23(月)00:00 AAS
 >>124 
 バーチャルサーバのスワップはちゃんととってます? 
127: 2008/06/23(月)06:32 AAS
 検索対象拡張子を追加するにはどこいじればいいんだろう? 
 .javaとかをテキストとして処理するようにしたいんだが・・・ 
128: 124 2008/06/23(月)16:57 AAS
 バーチャルサーバのスワップ?  
  
 どうやって取るんだろ。。( p_q)ワカンネっす PLASKサーバーです 
  
 _conf の設定が悪いのでしょうか。。P2P(estmaster)で使ってます。 
 _confにメモリ周辺の設定ってありましたっけ? 
129(1): 2008/06/24(火)02:03 AAS
 .netからDLLを利用しようと思ってます。 
 が、検索のAPIがDLL内でmallocしたものを返す仕様になっており、 
 メモリ解放ができません。 
 内部で完結するよう関数追加してビルドしなおししかないでしょうか? 
130: 2008/06/24(火)21:40 AAS
 DTDって変更したいときは任意の場所に出来るのかな? 
 デフォルトのファイルを書き換えるだけ?
131(1): 2008/06/24(火)22:14 AAS
 >>129 
 どうしたいのか分からんが、間にラッパーを 
 かませればいいんじゃないの?
132: 2008/06/24(火)23:50 AAS
 >>131 
 はい、ラッパー作った方がいいと思います。 
 ラッパーのビルドもcygwin入れて本体と同じライプラリつかってやるんですよね。きっと。 
 UNIX系はさっぱりで、makeファイルすらよくわからず、相当時間がかかりそうです。 
  
 とり急ぎ直近はSearch系だけestcmdでやっちまおうと思います。 
 ギャザラはDLL使うのでなんとも不格好なんですが。 
133: 2008/06/25(水)10:35 AAS
 freeをcrtからインポートすればいいだけじゃないの? 
134: 2008/06/26(木)01:02 AAS
 makeの設定とdllの中身見たらmsvcrt.dllでいいみたいですね 
 どうもありがとうございました。 
135(1): 2008/07/08(火)20:51 AAS
 質問です。 
 windows環境でRailsの開発をしててHyper Estraierを使いたいんですが、 
 配布されているバイナリパッケージにRubyバインディングが見当たりません。 
 Cygwinでソースをmakeしても、Hyper Estraier本体は入るんですが、 
 Rubyバインディングのmakeでコケます。 
  
 windowsでは無理?
136: 2008/07/12(土)09:15 AAS
 どうコケのかを言わずに、どう答えて欲しいんだろう
137: 2008/07/12(土)17:24 AAS
 >>135 
 お前にゃ無理だ。 
138(1): 2008/07/24(木)13:28 AAS
 ショボ頭の自分助けて… 
  
 pdfをインデックス化したいんですけど、30MB超えるpdfだと、 
 文章の途中までしかインデックス化してくれません。。 
 特にエラーとか出てないんですけどなんでだろ? 
  
 $ estcmd gather -cl -fx ".pdf" "H@estfxpdftohtml" -fz -ic UTF-8 -il ja -lf -1 -lt -1 -sd -cm casket ./ 
  
 一応、-lf -1 -lt -1で、ファイルサイズ制限無しとかにしてみるんだけど、 
 マニュアルとかGoogle先生とか聞いても対処方法もわかんなくて、、 
 こんなバカ助かるかな?
139(1): fumiyas 2008/07/25(金)12:27 AAS
 >>138 
  
 estfxpdftohtml スクリプト中に「ulimit -v 262144 -t 10 2> "/dev/null"」ってのがあるから 
 「262144」の部分を適当に多くしてみるとどう?
140: fumiyas 2008/07/25(金)12:55 AAS
 >>114 
 うちの estmaster もインデックスにデータを投入するごとに肥大化しているような。 
 お客さんのところでメモリ使用量 1GB 越えも発生したので、調査する予定。(;_;) 
  
 … その前に Tokyo Estraier を試してみようかしら?
141(1): 2008/07/25(金)15:21 AAS
 >>139 
  
 うぅ、バカに救いの手をありがとうございます。orz 
 少しインデックス化できた文章が増えたので、イケルか!と思ったんですが、 
 値を倍位に変更しても、それ以上は増えなくて、やっぱり途中で切れちゃってる。_| ̄|○||| 
 ( -t 10 => 500とかもしてみたけどダメだった…) 
  
 なにげに、 
 $ pdftotext -enc UTF-8 -htmlmeta "pdfファイル" 
 これでやってみると、きちんとオワリまで文章がテキスト化されているみたい。 
  
 新たに発覚したんだけど、どうもpdf文章の途中でたまたま出てくる「<<」の記号から、 
 「>>」の所まで、ごっそり文書がインデックス化されてないっぽい。(゚ロ゚;))((;゚ロ゚)オロオロ
省2
142(2): fumiyas 2008/07/26(土)02:26 AAS
 >>141 
  
 ああ、わかった…。(たぶん) 
 pdftotext のバグですね。 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" | output 
  
 の部分を: 
  
   pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
   |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
   | output
省6
143(1): 2008/07/26(土)11:00 AAS
 >>142 
 あんただれ? 
144(1): 2008/07/28(月)14:06 AAS
 >>142 
  
 ホントすいません、付き合って頂いちゃってありがとうございます。 
 pdftotext のバグですか!? 
 だとすると、こんなド素人に使いこなすのは難しくなっちゃうかも。。現状で満足せなあかんですかね(;´ー`) 
  
 スクリプトありがとうございます(人-) 
 ただかなり初歩的な部分で分からないところが…(滝汗) そもそも sed がイマイチ分かってないしょっぱい自分… 
  
 > # sed 's/ -htmlmeta / -raw -nopgbrk /' /usr/bin/estfxpdftohtml > /usr/bin/estfxpdftotext  
 > # chmod 755 /usr/bin/estfxpdftotext  
  
 estfxpdftohtml や estfxpdftotextは /usr/local/share/hyperestraier/filter にあって 
 /usr/bin には無かったりするんですが、その辺は読み替えろよこんちくしょう的な感じでしょうか…?(゚Д゚;)アワワ
省1
145: fumiyas 2008/07/29(火)13:53 AAS
 >>144 
  
 まずは pdftotext のバグについて。 
 pdftotext は -htmlmeta オプションを付けると PDF に含まれる 
 本文のテキストを簡単な HTML にして、プラス文書情報 (Adobe Reader なら 
 [File] - [Properties] で表示される情報) を HTML の <meta> に 
 含めてくれますが、PDF 本文のテキストは <pre> で囲まれるだけで 
 その中に含まれる <,  & を <,  & に変換してくれません(バグ)。 
 なので PDF に「<HTMLのタグではない適当な文字列>」という文が含まれていると、 
 estcmd がそれを HTML のタグと認識してしまい、削除してしまいます。 
  
 sed がやっていることですが、<pre>〜</pre> の間の <,  & を
省10
146: fumiyas 2008/07/29(火)13:57 AAS
 ありゃ? 「&lt;」(実際は半角)とかが「<」に変換されちまった…。 
 どうしたらいいの? ま、いいか。 
147(1): fumiyas 2008/07/29(火)15:56 AAS
 初心者板で聞いてきました。「&amp;」って書くのね…。 
  
 pdftotext -enc UTF-8 -htmlmeta "$infile" - 2> "/dev/null" \ 
 |sed '/<pre>/,/<\/pre>/{s/&/\&/g;s/</\</g;s/>/\>/g}' \ 
 |output 
  
 その中に含まれる <,  & を <, >, & に変換してくれません(バグ)。  
上下前次1-新書関写板覧索設栞歴
あと 186 レスあります
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル
ぬこの手 ぬこTOP 0.020s