全文検索エンジン Hyper Estraier 2 (329レス)
1-

1
(1): 2007/04/17(火)19:56 AAS
外部リンク[html]:hyperestraier.sourceforge.net
230: 2010/03/25(木)07:11 AAS
全文検索では全角か半角はどちらかに変換した方がいいと思うのですが。
UTF8や16では、全角のアルファベットは世界共通の配置になってますか。
言語ごとに異なる位置にありますか。
統一した方が良いと思いますが。コード位置がわかりません、
231
(1): 2010/03/25(木)07:29 AAS
N-gramするうえで文字単位にするかバイト単位にするかはどうすればいいですか。
このソフトはどっちですか。
日本語だと一文字で2バイトか3バイトになります。英語は1バイトにります。
文字単位では日本語一文字と英語一文字の価値が同等になりますが
実際の情報量は日本語の方が大きいです。
英語の2文字か3文字くらいの情報量がありそう。
バイト単位にすると、N=2の時に英字一文字の検索がしにくくなります。
232: 2010/03/25(木)07:31 AAS
何が言いたいのかさっぱり分かりません!\( ̄∧ ̄)/

# 思いついた単語を羅列してるだけみたいだけど在日?
233: 2010/03/25(木)10:19 AAS
脊髄反射で在日とか言うネトウヨ?
234: 2010/03/26(金)11:17 AAS
ということにしたいのですね。
235: 2010/03/26(金)12:04 AAS
いいえ、自分が理解できないだけなのを認めたくないだけです。
236: 2010/03/26(金)13:35 AAS
ということにしたいのですね。
237: 2010/03/26(金)13:56 AAS
はい。
238
(1): 2010/03/26(金)14:41 AAS
>>231
外部リンク[html]:hyperestraier.sourceforge.net
バイト単位ではなく文字単位2-gram
ただし英語はデフォルトで空白区切り、インデックス作成時に英語も文字単位2-gram指定可能
また英語空白区切りでインデックスを作ってもアルファベット一文字の検索は可能、2文字は不可

こんぐらい教えてやれよ、無能なやつばっかだな
239: 2010/03/26(金)15:22 AAS
分かってんならすぐに教えてやれよ、ノロマだな

という煽りは置いといて、元々の問いは本当にその答えを望んでいたのか?
もしそうだとしても、たぶんその答えの前に「HE内部では全ての文字はUTF-8で扱う」という大前提が必要では?

元々の問い(かどうかも分からない)は、N-gramのアルゴリズムには詳しそうなんだけど、それでいて「日本語は
英語の2文字か3文字くらいの情報量がありそう」とか言い出すし、UTF-8のことを知ってそうだけど知らなそうだし、
N-gramのアルゴリズムにそれだけ詳しいんならユーザガイドをちらっと読めば>>238の答えはすぐに分かるはずだし
ほんと、よく何を言ってるのか分かったね、すごいよあんた >>238
240: 2010/03/26(金)20:42 AAS
サンクス
いまローカルでgrep手助け用検索開発してる
もれないようにUTF8をバイナリとみてすべての2バイトを記録してみる。
241: 2010/03/26(金)23:42 AAS
ちょwまて
漏れなしバイナリ検索ならgrepで十分だろ
インデックス化するメリットないぞ
242: 2010/03/26(金)23:58 AAS
数ギガ、数十ギガとデータあったらどうする?
243: 2010/03/27(土)00:22 AAS
もうその話あきた。よそでやれ
244: 2010/04/14(水)09:33 AAS
mixiで公開してる東京なんとか
とかいう奴はこれの上位版?
245: 2010/04/14(水)11:36 AAS
TokyoCabinetは検索エンジンというよりそのバックエンド、かな?
246: 2010/05/01(土)16:32 AAS
これはなんでこんな速いんだ
転置インデックスだけの速さじゃないよね
247: 2010/05/19(水)20:34 AAS
hyper estraierで3000報の論文を検索しまくったら
予想外に研究が進んで、凶授どもが俺のことを
天才と勘違いしてやがるw
こんなダメ人間に希望を与えてくれた作者氏に
頭が下がる思いです。
248: 2010/05/21(金)21:40 AAS
公式メーリングリストは敷居が高いのと、
若干過疎気味なので、こちらで質問させてください。

windows開発環境で、ドキュメントファイル(doc,xls,ppt,pdf)は
インデックスを作成し、検索できるようになりました。
後は掲示板のデータベースの検索が残っています。
SQLという言語で読み書きしてるらしいのですが、
hyper estraierでデータベースのインデックスを
作成するにはどうすればよいのでしょうか?
検索してみたのですが、windows環境での方法は
見つかりませんでした。
windows環境でインデックスを作成する方法の伝授、
もしくは説明してるサイトがありましたら、教示願います。
当方、組み込み系のプログラムの経験はありますが、
windowsプログラム、webアプリ、SQLは素人状態です。

要領を得ない、質問をした本人がいまいちわかってない
自覚がある質問で申し訳ありませんが、よろしくお願いします。
249
(2): 2010/05/24(月)12:53 AAS
たぶん一番普通の方法はwebクローラーを使ってインデックスを作成
外部リンク[html]:hyperestraier.sourceforge.net

うまく行かないようであればスクリプトとかでインデックス追加スクリプトを自作
いろんな方法があってC,Java,Rubu,Perl,Pythonとか
ざっくり言うとプログラム中で @uri,@title,@mdate,本文を作って検索インデックスに追加。
頑張ればcsvデータ→シェルスクリプト+estcmdでもできなくはないと思う。
250: 2010/05/26(水)02:11 AAS
>>249
248です。
ありがとうございました。
まだわかっていない部分があるので、
まずはwebクローラーを使って試行してみます。
251
(2): 2010/06/01(火)20:00 AAS
数が増えるとフラッシュしまくりで速度低下するんですが。
解決方法ありますか。
252
(1): 2010/06/02(水)19:06 AAS
複数ファイルの書庫をディレクトリと認識するエンジンありますか
253: 2010/06/03(木)13:20 AAS
>>252
書庫の中身をドラフト形式で渡すフィルタ書けばいいんじゃないかな。
254: 2010/06/03(木)16:48 AAS
サンクス
255: 2010/06/04(金)20:57 AAS
AA省
256: 2010/06/05(土)22:13 AAS
>>249
結局、SQLコマンドでデータを取ってきて、
インデックス作成するプログラムを作りました。
ありがとうございました。
257: 2010/06/14(月)16:45 AAS
すみません、教えてください。
Hyper Estraierを使い始めましたが、
Hyper Estraierで文章の中身だけでなく、
ファイル名やファイルパスも検索のキーワードに
同時にヒットさせたいです。
インデックスの作成や、検索時になにか
オプションで指定するなど、なにか方法がありますか。
よろしくお願いします。
258: 2010/06/28(月)10:43 AAS
クローラーで拾ってきたURLだけの検索ってので改造したけど、随分前のことなの忘れちゃった。
他に
259
(1): 2010/08/05(木)03:31 AAS
引き継いで開発してくれる有志っていないの?
低スキルなので、私はだめだけど..
260: 2010/08/05(木)04:16 AAS
>>259
なんか問題あるっけ?
TCに移行すればいいじゃない。
261: 2010/08/05(木)17:19 AAS
TCって、KVSじゃないの?
262
(1): 2010/08/15(日)12:35 AAS
TCは全文検索できるよ。
263
(2): 2010/09/22(水)22:13 AAS
最近使い始めたものです。
簡便書式で検索した場合、
例えば、「a*」とした場合と「ab*」とした場合に
なぜか「ab*」の方がヒット件数が多くなります。
一応、公式サイト見てきましたが、
それらしいことは書いてありませんでした。
なにか心当たりがある方がいれば、
教えてください。
よろしくお願いします。
264
(1): 2010/09/22(水)22:16 AAS
>>262
データ量多くなるとまともに使えなくなるけどなw
265
(1): 2010/09/23(木)01:38 AAS
>>264
mixiの全データ検索に使用されているからそれはないのでは?
なにか運用間違えているとか?
266: 2010/09/23(木)02:49 AAS
TCの全文検索ってQ-GRAMインデックスのことだろ?
データ量増えるとホント糞みたいに重くなって使い物にならんぞ。
267: 2010/09/23(木)19:36 AAS
作ってる本人も遅いって言ってた気がする。
268: 265 2010/09/23(木)20:30 AAS
mixiでTCが使われているのは全文検索じゃなかったね。ゴメン
269
(1): 2010/10/07(木)04:14 AAS
>>263
N-gramのN=2とかが関係してるんじゃない?
わかち書きを変えてみると違う結果になると思う。
270: 2010/10/09(土)17:47 AAS
>>269
レス、ありがとうございました。
とりあえず、est_cond_set_optionsのオプションをESTCONDSUREで
検索してみましたが、結果の数は変わりませんでした。
なんにしろ、N-gram関連を勉強してみます。
271
(1): 2010/10/11(月)12:23 AAS
>>263

wildmax の設定でいくらか調整できると思う。
けれど一文字で検索する場合には、N-gramインデックスでは
あまり良い結果出せないんじゃないかな。

269が書いた通り、2-gramに対し一文字で検索するため、
「ab」を含む文書を取得する
「a」で始まる2-gramをwildmax個拾って、それらを含む文書を
取得する(2gramの出現頻度とかは見てない)

という内部動作なんだろうなと、前に思った。
272: 2010/10/27(水)20:48 AAS
>>271
遅レスすいません。さっき、気づきました。
詳細な情報ありがとうございました。
とりあえず、ソースを読んでみましたが、
QDBMの中身も把握してないと理解
できなさそうなので、時間のあるときに
見てみます。
273: 2010/10/30(土)15:19 AAS
誰かこの問題をHyper Estraier でも起きないか検証してくれw
外部リンク:uinyan.com
274: 2010/11/16(火)15:09 AAS
windowsですが、DesktopHEの他に、似たソフトってないですか?
もしくはどなたか改造されていたり。
フォルダ順ができるだけでも楽になるのですが・・・
275: 2011/02/10(木)08:37 AAS
ファイル名のみ、または、最初の数行だけをクロールすることは可能?
全文だとインデックスがすごい容量になりそうなので、できるだけ少ないクロールをしたいのですが。
276
(1): 2011/02/10(木)09:36 AAS
”インデックスの容量”を心配しているの?
だとしたら杞憂だと思うんだけど、もしかして組込み系?
277
(1): 2011/02/10(木)13:07 AAS
>>276
いえ、普通のLinuxマシンで、1TBほどのファイルサーバーをクロールしようと考えています。インデックスの容量とクロール時間を気にしています。
なので、とりあえずはファイル名と最初の数行だけをクロールしたいと考えていました。
278: 2011/02/10(木)13:47 AAS
>>277
インデックスの容量 -> テキスト情報量に依存
クロール時間    -> クロール方法に依存

マニュアルをちゃんと読んでから検討したほうがいいよ。
279: 2011/02/10(木)23:56 AAS
最近のMinGWでコンパイルに成功したかたいますか?

ライブラリ名が変更されてるのを修正すればコンパイルは通るのですが、
実行すると異郷終了します

そもそもqdbmのmake checkでvtestが失敗するようで、
コンパイルできないのが正しいんでしょうか?
一応バイナリ版のqdbmを持ってきて実行しても
やはりインデックス作成で異常終了してしまいました

なにかポインタがあれば教えてください
280: 2011/04/14(木)21:08 AAS
大文字小文字を区別して検索できるようにして欲しい
281
(2): 2011/04/17(日)12:28 AAS
インデックスがでかくなってくると速度落ちないですか?
回避する方法ありますか?
282
(1): 281 2011/04/17(日)12:31 AAS
>>251も自分だ。10ヶ月ほど前にも書き込んでたが。
解決策見つからず。
283: 2011/05/07(土)18:02 AAS
>>251,281-282
この遅くなるって、
c:\hyperestraier\estcmd: INFO: flushing index words: name=index ...
ってでてディスク凄いアクセスするようになって遅くなって感じですか?

自分は上記のような感じで

ファイル数12500、総サイズ1.33G程度のHTMLファイルを
スキャンし終わるまで14分位かかってしまいます。

オプションとしては次のようにしているのですが・・・
gather -il ja -lt -1 -lf -1 -pc CP932 -sd -cm -cs 400
284: 2011/05/11(水)20:07 AAS
もう見てる人居ないんだろうか
285: 2011/05/11(水)20:21 AAS
見てるけど、開発が止まっちゃってて新しい話題がないよなー
286: 2011/05/12(木)05:31 AAS
一応チェックリストには入れてる
287: 2011/05/13(金)19:03 AAS
namazu と これくらいかー?
使える全文検索は。
288: 2011/07/13(水)06:07 AAS
luceneで決まりだろ
289: 2011/07/13(水)16:35 AAS
クラウドサービスの検索エンジンでタダで使えるのってあるのでしょうか?
全部Webに乗っけてしまって、site:付きでググってもらうのは他人に説明不要で楽なんだけど。
何一つ知らないので、どなたか詳しい方や使った経験ある人は紹介してくれませんか。

query文法を調整したり、著者名は特別扱いしたり、順位付けをカスタマイズしたり(それか不要な
結果をフィルタリングしたり)、出力のフォーマットを調整できればとかいう希望をもってます。
290: 2011/07/19(火)00:44 AAS
今はkyotoだっけtokyoだっけ?
291
(1): 2011/07/19(火)12:55 AAS
作者がmixiからgoogleにいったよね
292: 2011/07/19(火)14:38 AAS
>>291
へえ、ついに検索の総本山へか
293: 2011/08/13(土)15:26 AAS
え?自分で会社作ってたんじゃなかったっけ??
294: 2011/08/15(月)10:45 AAS
失敗したんだって
295: 2011/08/28(日)22:41 AAS
解決策が見つからなかったので質問させてください。
Windows用バイナリをWindowsサーバに入れて、ファイルサーバの検索用に
使用しています。ファイルサーバのパスに「−」(全角マイナス)が含ま
れている場合、検索結果のリンクの「−」の部分がunicodeの「-」になっ
てしまい、リンクからファイルを開くことができません。

unicode→Shift-JISの変換がうまくいっていないのかと思いますが、どの
ようにすれば解決するのか教えてください。また、この問題はLinuxでは
そもそも発生しない問題でしょうか。

Windows用バイナリ
外部リンク:hyperestraier.sourceforge.net
296: 2011/09/18(日)23:41 AAS
P2Pでクローラーを動かしてます。

特定のURLがインデックスされるかを知るにはどうすればよろしいのでしょうか?
297: 296  2011/09/18(日)23:42 AAS
お願いします
298: 192.774 2011/11/26(土)01:02 AAS
検索革命のせいか検索デスクの逆リンクがまだ動かない。
299: 2012/01/18(水)15:49 AAS
mew以外にもhyper estraier で過去ログの高速検索ができるメールソフトないでしょうか
300: 2012/01/18(水)19:37 AAS
Gnus
301: 2012/04/19(木)18:59 AAS
Hyper EstraierをGoogleアラートに登録してたら、
今日こんな↓
外部リンク:gist.github.com
が送られてきたが、これなんだろ? mac用のruby使ったinstaller?
githubよく知らんので、これが全部なのかなんかの一部なのかも分からん。
なにこれ?
302: 2012/04/19(木)21:59 AAS
Homebrew 外部リンク:mxcl.github.com
っつうMac用パッケージ管理システムのインストール定義だね。
rubyスクリプトで定義が書けるんだね。
303
(3): 2012/04/20(金)21:10 AAS
やはりMacでしたか。よくわからないのですが、
僕はWinとUbuntuしか持ってないので使い道ないですね。

しかしこれだけ情報が増えた世界で個人で気軽に使える
全文検索エンジンは絶対使わなきゃ損と思ってるのですが、
いまいちもりあがりませんな…
304
(2): 2012/04/20(金)23:35 AAS
>>303
Hyper Estraierが出てきた当時はサイト内検索はnamazuから取って変わると
思っていたけどGoogleカスタム検索のほうが流行ってしまって見ることは
かなり少なくなってしまった気がするな。俺はローカルのメールを検索するのに
現役で使っているけど。
MLログを見てみたら作者がフェードアウトしてしまってもう5年経つのか。
後継のソフトウェアを作ってるみたいだけどもう少し表に出てきてほしい。
305: 2012/04/21(土)19:13 AAS
>>304
>>303さんとは別の者だけど
ブログ見る限りは、子供できて家庭が忙しくて
プライベートで全文検索どころじゃないのかなあと
googleに再就職した、とは書いてあるけど
306: 303 2012/04/21(土)20:56 AAS
>>304
うちの会社だけなのかな、よその部署から情報もらおうと思うと
同じ本部内ですらすごく嫌がられる。だからActive Directoryで
公開されているフォルダを全部DesktopHEでインデックス化しちゃったんだよね。
よくない事かもしれないけど、いろいろ分かって捗るw
307: 名無しさん@お腹いっぱい 2012/05/21(月)00:40 AAS
検索に基礎がなっていない。
308: 2012/08/11(土)17:34 AAS
すいません、質問させてください。

まずは、環境から。
ubuntuにhyperestraier wv xlhtml ppthtmlをインストール。
word、excel等を検索対象とするために、
# cp /usr/share/hyperestraier/filter/* /usr/lib/bin/
(ダメ押し?でこれも # PATH=$PATH:/usr/share/hyperestraier/filter)
これでパスが通るはず?

で、実際にやってみました。
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ 検索対象フォルダ/
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
これで、doc、xls等が検索対象になっていることは確認できましたが、
estcmd: INFO: 26 (~/fuga.ods): registered
sh: 1: estxfilt: not found
と表示され、txtファイル以外の検索はできないようです。

どのようにすれば、doc、xlsファイル等を検索できるでしょうか?
また、そもそもLinuxでMSofficeのファイルを全文検索することは可能なのでしょうか?
さらに、odfファイル全般についても検索可能かをお尋ねしたいと思います。

以上、よろしくお願いいたします。
309
(1): 2012/08/11(土)17:38 AAS
訂正です。
下の方の
$ estcmd gather -fx .doc,.xls,.odt,.ods T@estxfilt -fz -ic UTF8 -pc UTF8 -sd -cm インデクスフォルダ/ ほげ
   ↓
$ estcmd search -ic utf-8 -vh インデクスフォルダ/ ほげ

です。 失礼しました。
310
(1): 2012/08/11(土)18:17 AAS
>>309
estfxmsotohtml を使うんじゃないの。
H@estfxmsotohtml でhtmlにして登録じゃないの。
311
(1): 2012/08/11(土)19:07 AAS
>>310
おぉ、うまくいきました。
T@estxfilt→H@estfxmsotohtmlと置き換えることで、
xlsとdocが検索できるようになりました。
ありがとうございました。

ところで、ODFファイルの検索は可能なのでしょうか?
MS関連のファイルには対応しているけど、
Linuxで使われているOpenOfficeのファイルに対応してないというのは、
ちょっと納得できないような・・・。
312
(1): 2012/08/11(土)20:12 AAS
>>311
ODFがメジャーになる前だったからなあ……
odt2txt ってコマンドがあるからこいつを使ってフィルタを作ればいいんじゃないかな。
シェルスクリプトでフィルタ書くの簡単だし。
313
(3): 2012/08/11(土)20:36 AAS
>>312
レスどうもです。
odsはどうするのでしょうか?
っていうか、そんなスキルないですよorz

フィルタ書くの簡単だとしたら、
なんでLinuxで全文検索が簡単にできるようにならないんでしょうかね?
個人的には、デスクトップ検索はPCの必須アイテムだと考えていますが、
googleデスクトップは終了しちゃうし、DesktopHEは64bitで使えないし、
現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、
デスクトップ検索は、世間的にはあんまり関心のない分野なのかなと思ったりします。
314: 2012/08/11(土)20:56 AAS
>>313
知らんがな。
おまえの愚痴に付き合う気はない。
欲しい人は自分で書く。そういう世界だから。
あとデスクトップ検索アプリは他にちゃんとあるし、フィルタもすでに作っている人がいる。
315: 2012/10/10(水)14:49 AAS
pandocというのがodfの変換もできるほか、いろいろ変換できそう
316: 2013/05/04(土)18:53 AAS
>>313
DesktopHEはWin7x64で快適に動作していますが。
317: 2016/02/08(月)08:45 AAS
2007年からメンテされてないんだね
318: 2016/02/08(月)10:03 AAS
forkがあるけどこっちも止まってるかな
外部リンク:github.com
319: 2016/11/28(月)00:25 AAS
ハイパエストレイアって、良い物だと思ってたけど、
何時までも64bit対応しないんでどうしたものかと。
320: 2016/11/29(火)08:55 AAS
今時ならgroongaがいいんじゃないかなあと思っている。
321: 2017/12/29(金)07:49 AAS
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

XER7GWRJ9A
322: 2018/01/23(火)23:16 AAS
(Javaを使わずに)全文検索を構築したくて
今さらながらHyper Estraierを使い始めました
主にPythonから叩いていて、こんなことやっています
外部リンク:github.com
外部リンク:github.com
まずは5ちゃんねる(2ちゃんねる)過去スレ全文検索をターゲットにしています
ここの前スレだとこんな感じ
外部リンク:feedintegra.info
よろしくお願いします
323: 2018/05/22(火)03:07 AAS
知り合いから教えてもらったパソコン一台でお金持ちになれるやり方
時間がある方はみてもいいかもしれません
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

MS75P
324: 2020/02/11(火)15:28 AAS
チエオクレのハゲの悲惨なツイッター
Twitterリンク:aphonedollar

  ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる

>「DesktopHE」 はWindows10に対応してないらしい

はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!

■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■

チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!

hatenaとかでまで、必死こいて大嘘をばらまいているんだが  
Twitterリンク:5chan_nel (5ch newer account)
325: 2021/06/09(水)04:51 AAS
>>313
>現在windowsで最強のデスクトップ検索ソフトのfilediverは超マイナーだし、

だとさwww 
作者本人が、どさくさで「最強のデスクトップ検索」だとか大法螺こいてんのかぁ?
何がやりたいのか謎な、あんな糞ソフトを垂れ流すな!
326: 03/27(水)19:35 AAS
約束したんだよ
放出してもいいレベルでも出来るな
ガツンとみかんって美味しいとこだけ取って楽な展開のきっかけになるとは何となく
327: 03/27(水)20:18 AAS
えーさんぶんのに謎に見た」と答えるとどちらかといえば、
328: 03/27(水)20:53 AAS
むしろこれがマーケティングだから
青い背景でさ
4に健気さがない若者だらけなんでガチ恋なんだろう
2chスレ:newsplus
329: 03/27(水)21:56 AAS
何がいいのか?
誰でもいい
1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.879s*