形態素解析器 JUMAN をインストール

Tさんから「JUMAN、JUMAN」と呪文を唱えられたので、気がついたら JUMAN をインストールしていました。

以下がそのインストールメモ。

$ wget http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/juman/juman-6.0.tar.gz
$ tar xfvz ./juman-6.0.tar.gz 
$ cd juman-6.0
$ ./configure
$ make
$ make install


一応 ldconfig しておく。

$ ldconfig


で、巨峰を食べたので、そういうのを例文にしてみた。

JUMAN は euc-jp しか受けつけないので注意。

$ echo '巨峰を一房食べた。おいしいおいしい。'|lv -Oe|juman|lv -Ou
巨 巨 巨 未定義語 15 その他 1 * 0 * 0 NIL
峰 みね 峰 名詞 6 普通名詞 1 * 0 * 0 "漢字読み:訓 カテゴリ:場所-自然 代表表記:峰/みね"
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
一 いち 一 名詞 6 数詞 7 * 0 * 0 NIL
房 ふさ 房 名詞 6 普通名詞 1 * 0 * 0 "漢字読み:訓 カテゴリ:植物-部位:人工物-その他:抽象物 代表表記:房/ふさ"
食べた たべた 食べる 動詞 2 * 0 母音動詞 1 タ形 10 "ドメイン:料理・食事 代表表記:食べる/たべる"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
おいしい おいしい おいしい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:美味しい/おいしい"
おいしい おいしい おいしい 形容詞 3 * 0 イ形容詞イ段 19 基本形 2 "代表表記:美味しい/おいしい"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS


ぐはっ。JUMAN は巨峰を知らないのね。orz。

ちなみに MeCab だと以下のような感じ。

$ echo '巨峰を一房食べた。おいしいおいしい。'|lv -Ou|mecab|lv -Ou
巨峰    名詞,一般,*,*,*,*,巨峰,キョホウ,キョホー
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
一      名詞,数,*,*,*,*,一,イチ,イチ
房      名詞,一般,*,*,*,*,房,ボウ,ボー
食べ    動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。      記号,句点,*,*,*,*,。,。,。
おいしい        形容詞,自立,*,*,形容詞・イ段,基本形,おいしい,オイシイ,オイシイ
おいしい        形容詞,自立,*,*,形容詞・イ段,基本形,おいしい,オイシイ,オイシイ
。      記号,句点,*,*,*,*,。,。,。
EOS


JUMAN には「UTF-8 のテキストを入出力できない」とか「え?キョミネ?」など、現代では不便に感じる点も多少あります。

でも解析結果を MeCab と比べると、タスク次第では JUMAN の方が嬉しくなることが多そうだと感じます。なので今後 JUMAN にはお世話になりそうです。

次は KNP をインストールしようかな。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus