mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの4月中旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-01]でした。
4/8と4/13にも更新していたのですが、、今後はそういうのも告知します。

- Periodic data update on 2015-04-16 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/546c4b5e0e2ff335ee0286d55f114da45a7b67bc

今回はエントリの更新と同時に、辞書エントリに真に不要な重複エントリがあったのでそれを削除しつつ、追加する価値があるエントリを追加できないでいた場合はそれを足す処理を増やしました。

辞書の開発で一番大変なのは、実は新機能を内部で追加した時のバグの検知やその修正です。しかも最終的にビルドしてインストールできるか毎回チェックする必要があります。一回の修正がどんな影響を及ぼすかチェックするまでに終盤は毎回大分かかります。今回は気軽に日が変わってすぐに作業し始めて大分後悔しました。

きちんと更新処理の並列化などで工夫して、より速く変更と確認ができるようにしないと、時間が無駄になるなと実感してるところです。

おかげさまで mecab-ipadic-neologd は今のところ 10 uniq cloners / day 程度の速度で新たに利用されており、確実に何処かで利用されているのだなという実感は得ています。
どうもありがとうございます。

他方、どこで利用されているかを僕から検知することは大分困難(Twitter は1日1回チェックしています)です。社会的な意義を数値に換算したり、自身のやる気を維持したりという意味で、使用者の方からどうやって教えていただくか、は今後の課題です。

次回は少なくとも5月上旬に辞書を更新します。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus