MeCabをインストール

ちょっとやりたいことがあって、MeCabとSennaをインストールしたいのです。
でも今日はMeCabだけインストールします。

MeCabは形態素解析という処理をするためのツールです。
形態素解析については、形態素解析 - Wikipediaを読むとたぶんわかります。

自然言語で書かれた文を形態素 (Morpheme, おおまかにいえば、言語で意味を持つ最小単位) の列に分割し、品詞 (Part-of-speech) を見分ける作業


Sennaは組み込み型の全文検索エンジンです。
今後、使うことができると便利だろうな、と思っています。

以下では
『MeCabでutf8な文字列を処理できるようにしつつ、Sennaことも考えつつインストール』
という、多くの人に用事がないことをしています。しかもPerlだし.



使ったOSはcoLinux上のDebian Sarge Linux(Debian GNU/Linux 3.1)です.

・いろいろ考えるの面倒な駄目人間なのでsu
$ su

# make install時にsudoすればいいか・・・

・ipadicの取得・解凍
# cd /tmp
# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.6.1.tar.gz
# tar zxvf ./ipadic-2.6.1.tar.gz


・MeCabの取得・解凍
# cd /tmp
# wget http://chasen.org/~taku/software/mecab/src/mecab-0.81.tar.gz
# tar zxvf ./mecab-0.81.tar.gz


・解凍したipadicを、mecabを解凍したフォルダにコピー
# cp -rp ipadic-2.6.1 mecab-0.81/dic/


・Sennaを使おうと思っているのでmteパッチを取得して、あてる。
# wget http://dev.razil.jp/archive/mecab-0.81.mte.patch
# cd ./mecab-0.81
# patch -p1 < ../mecab-0.81.mte.patch


・MeCabでutf8を扱いたいので、そのようにconfigure, make, make installする
# ./configure --with-charset=utf8
# make
# make install


・puttyの文字コードをutf8にして動作確認。
$ meca
puttyの文字コードをutf8にしたわけです。


putty 未知語,*,*,*,*,*,*,*,*
の 助詞,連体化,*,*,*,*,の,ノ,ノ
文字 名詞,一般,*,*,*,*,文字,モジ,モジ
コード 名詞,一般,*,*,*,*,コード,コード,コード
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
utf 未知語,*,*,*,*,*,*,*,*
8 未知語,*,*,*,*,*,*,*,*
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
わけ 名詞,非自立,一般,*,*,*,わけ,ワケ,ワケ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
EOS


・puttyの文字コードをeuc-jpにして、うまくいかないように祈って動作確認
$ mecab
puttyの文字コードがeuc-jpなのです


putty   罟腑茯,*,*,*,*,*,*,*,*
の      罟腑茯,*,*,*,*,*,*,*,*
文      罟腑茯,*,*,*,*,*,*,*,*
字      罟腑茯,*,*,*,*,*,*,*,*
コ      罟腑茯,*,*,*,*,*,*,*,*
ー      罟腑茯,*,*,*,*,*,*,*,*
ド      罟腑茯,*,*,*,*,*,*,*,*
が      罟腑茯,*,*,*,*,*,*,*,*
euc     罟腑茯,*,*,*,*,*,*,*,*
-       罟腑茯,*,*,*,*,*,*,*,*
jp      罟腑茯,*,*,*,*,*,*,*,*
な      罟腑茯,*,*,*,*,*,*,*,*
の      罟腑茯,*,*,*,*,*,*,*,*
で      罟腑茯,*,*,*,*,*,*,*,*
す      罟腑茯,*,*,*,*,*,*,*,*
EOS


・MeCabのPerlバインディングをインストール
# cd /tmp
# wget http://www.chasen.org/~taku/software/mecab/bindings/mecab-perl-0.81.tar.gz
# tar zxvf ./mecab-perl-0.81.tar.gz
# cd ./mecab-perl-0.81
# perl perl ./Makefile.PL
  # make
  # make install




Perlからも使えるようになったし,散歩でもしてこよう。

【関連リンク】
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン

投稿者:としのり  日時:23:59:59 | コメント | トラックバック() |