namazuでサーバーを立てたい (481レス)
前次1-
抽出解除 レス栞

356
(2): 02/11/01 10:53 ID:SkScjhB+(1/3) AAS
インデックスから日本語を排除したいと思っています。

検索対象は日本語のテキストファイル(含む LaTeX ソース、メール、ニュース)なのですが、
検索後として日本語を指定することがほとんどありません。
そこでインデックスを作る際に日本語は省いてしまいたいと思っています。
mknmzrc はどのように設定するといいのでしょうか?

現在は kakasi, chasen 共に使用できるようになっています。

あと、メールやニュースの Message-ID, In-Reply-To, References: フィールド以下の
文字列に対しては、メッセージ ID そのままの状態でインデックスに含めたいのですが、
可能でしょうか?

つまり、検索文字列としてメッセージIDを指定したいことがあるということです。
357: 356 02/11/01 11:31 ID:SkScjhB+(2/3) AAS
nkf ~/Mail/ML/IETF/1 | chasen -j -F '%?U/%m/ / ' | jless

で望む結果が得られ多っぽいです。
chasen のマニュアルによると

         %?U/STR1/STR2/

っての 『if unknown word, STR1, otherwise, STR2』 ってことなのですが、
UNKNOWN ってのは辞書に無いってことですよね?
てことは chasen の辞書に英単語が載っていたらだめなんだな。
358: 356 02/11/01 11:32 ID:SkScjhB+(3/3) AAS
nkf ってデフォルトで BASE64 のデコードしてくれるんですね。
メールの Subject: の日本語(BASE64エンコードされている) が、
デコードされててちょっと感動した。
前次1-
スレ情報 赤レス抽出 画像レス抽出 歴の未読スレ AAサムネイル

ぬこの手 ぬこTOP 0.020s