mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-16]でした。
4/18、19、 24と28にも更新していたのですが告知してる場合ではなかったです。

- Periodic data update on 2015-05-01 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/10b6deb8c5e03c64ae4eea0f856a76059cfb60c2

前回の定期アップデートからのおもな変更は以下の 4 点です。

- 読み仮名が欠損しているエントリを以前より検出、改善可能にした
- 既知の「自動詞 + 助動詞」が固有表現になっていたので除去した
- 最新のtag(今だと v0.0.1)からの追加・改善があったエントリの一覧を、定期更新時に up することにした
- mecab-ipadic のソースコードを @taku910 さんが GitHUb 上で指定している google drive の URL を使ってダウンロードするように変更した

開発は現状はエントリをひたすら追加するフェイズなので当面は地味です。技術より根性が必要です。次のコストを調整するフェイズにたどり着くと若干技術的になりますし、最初の評価フェイズまでたどり着くと若干研究っぽさが漂ってくるのではないかと思います。いろいろ考えることはありますが、自分が便利に使えるものである状態を維持しながら、どんどん大きく一般的にしていきたいと思います。当面は世界一便利で OSS な日本語形態素解析ユーザ辞書を目指して頑張っておきます。

前回のアップデート以降に、いくつかの企業の製品に mecab-ipadic-neologd が組み込まれていることを教えていただいたり、導入の効果を調査していただいたりしていることをご報告頂きました。励みになります。ありがとうございます。

今後も何か自社の製品に組み込んだり、遊びで使ってみたり、研究に使ったりした方がいらっしゃいましたら、@overlast までTwitter の DMを送っていただくか (誰からでも受け付けております)、Line@ で overlast を追加してお声がけ下さい。

メッセージを頂いたら返信しますので、気軽に話しかけて頂けますと嬉しいです。

次回は少なくとも5月中旬に辞書を更新します。

LINE@ で @overlast をフォローする



友だち追加


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus