2007-04-25 Wed

全文検索エンジンLuceneを使い始める

Luceneを使い始めよう、と思ったんだけど
今日はインストール途中で時間切れになってしまった。

Sen


SenのプロジェクトからSen1.2.2.1.zipをダウンロード。
以下の手順でインストールする。
松本研から辞書をゲットしてるよ。

% wget hoge/unzip sen-1.2.2.1.zip
% unzip sen-1.2.2.1.zip
% cd sen-1.2.2.1/dic/
% wget http://chasen.aist-nara.ac.jp/stable/ipadic/ipadic-2.6.3.tar.gz
% ant
Buildfile: build.xml
・・・・
BUILD SUCCESSFUL
Total time: 6 seconds


もしもsenをUTF8化するなら

1、dic/dictionary.propertiesを編集する。
- sen.charset=EUC-JP
+ sen.charset=UTF8

それから、dicディレクトリでantする。
きちんとビルドできたら辞書は完成。

2、Sen自体をUTF8にする。これがめんどくさい。

- build.xmlのeuc_jpという記述をutf8に変更する。
- 以下のファイルの文字コードをutf8に変更する。
  - src/java/net/java/sen/processor/CompositPostProcessor.java
  - src/java/net/java/sen/SenUtils.java
- antする。
- sen.jarができあがる。

# このsenのutf8化については、今後検証して必要な作業を追加する。
# 他にもutf8にしなきゃいけないファイルがある予感。

Lucene 2.1.0


Apache Download MirrorsからLuceneのミラーサイトへ行って、
lucene-2.1.0.tar.gzをダウンロード。
そして解凍するだけ。

Luke 0.7


Luke - Lucene Index Toolboxから、Lukeをダウンロードする。
Lukeはjarファイルなのでダウンロードするだけ。
今はLukeに組み込みのLuceneもversion 2.1.0なので、
どのLukeを選んでも動くと思う。




今回はここまで、後日追記します。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |