2015-05-01 Fri

mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-16]でした。
4/18、19、 24と28にも更新していたのですが告知してる場合ではなかったです。

- Periodic data update on 2015-05-01 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/10b6deb8c5e03c64ae4eea0f856a76059cfb60c2

前回の定期アップデートからのおもな変更は以下の 4 点です。

- 読み仮名が欠損しているエントリを以前より検出、改善可能にした
- 既知の「自動詞 + 助動詞」が固有表現になっていたので除去した
- 最新のtag(今だと v0.0.1)からの追加・改善があったエントリの一覧を、定期更新時に up することにした
- mecab-ipadic のソースコードを @taku910 さんが GitHUb 上で指定している google drive の URL を使ってダウンロードするように変更した

開発は現状はエントリをひたすら追加するフェイズなので当面は地味です。技術より根性が必要です。次のコストを調整するフェイズにたどり着くと若干技術的になりますし、最初の評価フェイズまでたどり着くと若干研究っぽさが漂ってくるのではないかと思います。いろいろ考えることはありますが、自分が便利に使えるものである状態を維持しながら、どんどん大きく一般的にしていきたいと思います。当面は世界一便利で OSS な日本語形態素解析ユーザ辞書を目指して頑張っておきます。

前回のアップデート以降に、いくつかの企業の製品に mecab-ipadic-neologd が組み込まれていることを教えていただいたり、導入の効果を調査していただいたりしていることをご報告頂きました。励みになります。ありがとうございます。

今後も何か自社の製品に組み込んだり、遊びで使ってみたり、研究に使ったりした方がいらっしゃいましたら、@overlast までTwitter の DMを送っていただくか (誰からでも受け付けております)、Line@ で overlast を追加してお声がけ下さい。

メッセージを頂いたら返信しますので、気軽に話しかけて頂けますと嬉しいです。

次回は少なくとも5月中旬に辞書を更新します。

LINE@ で @overlast をフォローする



友だち追加

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2015-04-16 Thu

mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの4月中旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-01]でした。
4/8と4/13にも更新していたのですが、、今後はそういうのも告知します。

- Periodic data update on 2015-04-16 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/546c4b5e0e2ff335ee0286d55f114da45a7b67bc

今回はエントリの更新と同時に、辞書エントリに真に不要な重複エントリがあったのでそれを削除しつつ、追加する価値があるエントリを追加できないでいた場合はそれを足す処理を増やしました。

辞書の開発で一番大変なのは、実は新機能を内部で追加した時のバグの検知やその修正です。しかも最終的にビルドしてインストールできるか毎回チェックする必要があります。一回の修正がどんな影響を及ぼすかチェックするまでに終盤は毎回大分かかります。今回は気軽に日が変わってすぐに作業し始めて大分後悔しました。

きちんと更新処理の並列化などで工夫して、より速く変更と確認ができるようにしないと、時間が無駄になるなと実感してるところです。

おかげさまで mecab-ipadic-neologd は今のところ 10 uniq cloners / day 程度の速度で新たに利用されており、確実に何処かで利用されているのだなという実感は得ています。
どうもありがとうございます。

他方、どこで利用されているかを僕から検知することは大分困難(Twitter は1日1回チェックしています)です。社会的な意義を数値に換算したり、自身のやる気を維持したりという意味で、使用者の方からどうやって教えていただくか、は今後の課題です。

次回は少なくとも5月上旬に辞書を更新します。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2015-04-01 Wed

mecab-ipadic-neologd の seed データの4月上旬分の更新が完了

日が変わってすぐに、mecab-ipadic-neologd の seed データの4月上旬分の更新作業をしました。



前回の定期更新扱いの更新が3/17なので、いまのところ順調だと思います。

辞書の更新は淡々とやりつつ、他のこともやりながら、mecab-ipadic-neologd の見えている課題を順に解決して、確実に tag を作っていくのが当面の課題だなと思います。

次回からきちんとブログの記事にして告知しようと思いました。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |