前の月 / 次の月 / トップページ
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2015-05-29 Fri

UniDic に固有表現やUnicode 絵文字などを足す mecab-unidic-NEologd を公開しました

今年3月中旬 [2015-03-13] に mecab-ipadic-NEologd をリリースして以来、mecab-ipadic-NEologd はとても順調に普及しています。

さて、今回は UniDic に新語や固有表現、Unicode 絵文字などを足すことができる mecab-unidic-NEologd を公開しました。
mecab-ipadic-NEologd を生成する手法を使っています。

https://github.com/neologd/mecab-unidic-neologd/blob/master/README.ja.md

シードデータの性質上、構築されるシステム辞書には国語研短単位の条件を満たさないエントリも入りますので、あらかじめご了承ください。

これを MeCab と一緒に使うと要するにこういうことができます。

$ mecab -d /usr/local/lib/mecab/dic/mecab-unidic-neologd
アップルは Apple Watchを4月24日に国内発売しました。⌚
アップル	アップル	アップル	アップル-apple	名詞-普通名詞-一般
は	ワ	ハ	は	助詞-係助詞
Apple Watch	アップルウォッチ	アップルウォッチ	Apple Watch	名詞-固有名詞-一般
を	オ	ヲ	を	助詞-格助詞
4月24日	シガツニジュウヨッカ	シガツニジュウヨッカ	4月24日	名詞-固有名詞-一般
に	ニ	ニ	に	助詞-格助詞
国内	コクナイ	コクナイ	国内	名詞-普通名詞-一般
発売	ハツバイ	ハツバイ	発売	名詞-普通名詞-サ変可能
し	シ	スル	為る	動詞-非自立可能	サ行変格	連用形-一般
まし	マシ	マス	ます	助動詞	助動詞-マス	連用形-一般
た	タ	タ	た	助動詞	助動詞-タ	終止形-一般
。		。	補助記号-句点
⌚	トケイ	トケイ	時計	記号-一般
EOS


かなり便利そうですよね?!!!!!!!!!!

個人的に UniDic を使用してテキストデータから特徴ベクトルを生成する際や、UniDic を使用してテキストマイニングをする際には、 UniDic と mecab-unidic-NEologd を併用するのがオススメです。

unidic-mecab 2.1.2 との処理結果の差にもご注目ください。

unidic-mecab 2.1.2	     |	mecab-unidic-NEologd
今 いく よ 	     |	今いくよ
絢爛 舞踏 	     |	絢爛舞踏
るみ るみ 	     |	るみるみ
レー カン 	     |	レーカン
この 前 バイト で 化粧 品 選ん で� |	この 前 バイト で 化粧品 選ん でる
今 いくよ くるよ 	     |	今いくよくるよ
ワ カコ 酒 	     |	ワカコ酒
中村 蒼 	     |	中村蒼
俺 ガイ ル 	     |	俺ガイル
で ん ぱ 組 . i n c 	     |	でんぱ組.inc
ボトル の お ぱんつ 	     |	ボトル の おぱんつ
いろは す 		     |	いろはす
北越 紀州 製紙 	     |	北越紀州製紙
メガネ びいき 	     |	メガネびいき
パンチ ライン 	     |	パンチライン


チャンキングなしに上記のように固有表現が得られた方が嬉しい場合もあります。
両方の辞書の出力結果をマージして使った方が良い場合もあります。

mecab-unidic-NEologd は辞書の性能を BCCWJ を使用して、ある程度定量的に評価しようと考えて生成しました。
でも、手元にあるだけでは勿体無いので公開することになりました。

mecab-unidic-NEologd も mecab-ipadic-NEologd と同様に Apache License 2.0 ですし、シードデータは月に最低2回(初旬と中旬)の更新を予定しています。

何かご意見やアドバイスがございましたら、函館で開催される JSAI2015 に行きますのでお声がけ下さい。

参考リンク


- mecab-ipadic-NEologd
-- https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2015-05-01 Fri

mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-16]でした。
4/18、19、 24と28にも更新していたのですが告知してる場合ではなかったです。

- Periodic data update on 2015-05-01 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/10b6deb8c5e03c64ae4eea0f856a76059cfb60c2

前回の定期アップデートからのおもな変更は以下の 4 点です。

- 読み仮名が欠損しているエントリを以前より検出、改善可能にした
- 既知の「自動詞 + 助動詞」が固有表現になっていたので除去した
- 最新のtag(今だと v0.0.1)からの追加・改善があったエントリの一覧を、定期更新時に up することにした
- mecab-ipadic のソースコードを @taku910 さんが GitHUb 上で指定している google drive の URL を使ってダウンロードするように変更した

開発は現状はエントリをひたすら追加するフェイズなので当面は地味です。技術より根性が必要です。次のコストを調整するフェイズにたどり着くと若干技術的になりますし、最初の評価フェイズまでたどり着くと若干研究っぽさが漂ってくるのではないかと思います。いろいろ考えることはありますが、自分が便利に使えるものである状態を維持しながら、どんどん大きく一般的にしていきたいと思います。当面は世界一便利で OSS な日本語形態素解析ユーザ辞書を目指して頑張っておきます。

前回のアップデート以降に、いくつかの企業の製品に mecab-ipadic-neologd が組み込まれていることを教えていただいたり、導入の効果を調査していただいたりしていることをご報告頂きました。励みになります。ありがとうございます。

今後も何か自社の製品に組み込んだり、遊びで使ってみたり、研究に使ったりした方がいらっしゃいましたら、@overlast までTwitter の DMを送っていただくか (誰からでも受け付けております)、Line@ で overlast を追加してお声がけ下さい。

メッセージを頂いたら返信しますので、気軽に話しかけて頂けますと嬉しいです。

次回は少なくとも5月中旬に辞書を更新します。

LINE@ で @overlast をフォローする



友だち追加

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |