MeCabをインストール
ちょっとやりたいことがあって、MeCabとSennaをインストールしたいのです。
でも今日はMeCabだけインストールします。
MeCabは形態素解析という処理をするためのツールです。
形態素解析については、形態素解析 - Wikipediaを読むとたぶんわかります。
自然言語で書かれた文を形態素 (Morpheme, おおまかにいえば、言語で意味を持つ最小単位) の列に分割し、品詞 (Part-of-speech) を見分ける作業
Sennaは組み込み型の全文検索エンジンです。
今後、使うことができると便利だろうな、と思っています。
以下では
『MeCabでutf8な文字列を処理できるようにしつつ、Sennaことも考えつつインストール』
という、多くの人に用事がないことをしています。しかもPerlだし.
使ったOSはcoLinux上のDebian Sarge Linux(Debian GNU/Linux 3.1)です.
・いろいろ考えるの面倒な駄目人間なのでsu
$ su
# make install時にsudoすればいいか・・・
・ipadicの取得・解凍
# cd /tmp
# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.6.1.tar.gz
# tar zxvf ./ipadic-2.6.1.tar.gz
# wget http://chasen.naist.jp/stable/ipadic/ipadic-2.6.1.tar.gz
# tar zxvf ./ipadic-2.6.1.tar.gz
・MeCabの取得・解凍
# cd /tmp
# wget http://chasen.org/~taku/software/mecab/src/mecab-0.81.tar.gz
# tar zxvf ./mecab-0.81.tar.gz
# wget http://chasen.org/~taku/software/mecab/src/mecab-0.81.tar.gz
# tar zxvf ./mecab-0.81.tar.gz
・解凍したipadicを、mecabを解凍したフォルダにコピー
# cp -rp ipadic-2.6.1 mecab-0.81/dic/
・Sennaを使おうと思っているのでmteパッチを取得して、あてる。
# wget http://dev.razil.jp/archive/mecab-0.81.mte.patch
# cd ./mecab-0.81
# patch -p1 < ../mecab-0.81.mte.patch
# cd ./mecab-0.81
# patch -p1 < ../mecab-0.81.mte.patch
・MeCabでutf8を扱いたいので、そのようにconfigure, make, make installする
# ./configure --with-charset=utf8
# make
# make install
# make
# make install
・puttyの文字コードをutf8にして動作確認。
$ meca
puttyの文字コードをutf8にしたわけです。
puttyの文字コードをutf8にしたわけです。
putty 未知語,*,*,*,*,*,*,*,* の 助詞,連体化,*,*,*,*,の,ノ,ノ 文字 名詞,一般,*,*,*,*,文字,モジ,モジ コード 名詞,一般,*,*,*,*,コード,コード,コード を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ utf 未知語,*,*,*,*,*,*,*,* 8 未知語,*,*,*,*,*,*,*,* に 助詞,格助詞,一般,*,*,*,に,ニ,ニ し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ わけ 名詞,非自立,一般,*,*,*,わけ,ワケ,ワケ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。 EOS
・puttyの文字コードをeuc-jpにして、うまくいかないように祈って動作確認
$ mecab
puttyの文字コードがeuc-jpなのです
puttyの文字コードがeuc-jpなのです
putty 罟腑茯,*,*,*,*,*,*,*,* の 罟腑茯,*,*,*,*,*,*,*,* 文 罟腑茯,*,*,*,*,*,*,*,* 字 罟腑茯,*,*,*,*,*,*,*,* コ 罟腑茯,*,*,*,*,*,*,*,* ー 罟腑茯,*,*,*,*,*,*,*,* ド 罟腑茯,*,*,*,*,*,*,*,* が 罟腑茯,*,*,*,*,*,*,*,* euc 罟腑茯,*,*,*,*,*,*,*,* - 罟腑茯,*,*,*,*,*,*,*,* jp 罟腑茯,*,*,*,*,*,*,*,* な 罟腑茯,*,*,*,*,*,*,*,* の 罟腑茯,*,*,*,*,*,*,*,* で 罟腑茯,*,*,*,*,*,*,*,* す 罟腑茯,*,*,*,*,*,*,*,* EOS
・MeCabのPerlバインディングをインストール
# cd /tmp
# wget http://www.chasen.org/~taku/software/mecab/bindings/mecab-perl-0.81.tar.gz
# tar zxvf ./mecab-perl-0.81.tar.gz
# cd ./mecab-perl-0.81
# perl perl ./Makefile.PL
# make
# make install
# wget http://www.chasen.org/~taku/software/mecab/bindings/mecab-perl-0.81.tar.gz
# tar zxvf ./mecab-perl-0.81.tar.gz
# cd ./mecab-perl-0.81
# perl perl ./Makefile.PL
# make
# make install
Perlからも使えるようになったし,散歩でもしてこよう。
【関連リンク】
▼MeCab: Yet Another Part-of-Speech and Morphological Analyzer
▼Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン




