前の月 / 次の月 / トップページ
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2015-04-16 Thu

mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd

mecab-ipadic-neologd の seed データの4月中旬分の更新作業をしました。

前回の定期的な更新扱いの更新は[2015-04-01]でした。
4/8と4/13にも更新していたのですが、、今後はそういうのも告知します。

- Periodic data update on 2015-04-16 - neologd/mecab-ipadic-neologd
-- https://github.com/neologd/mecab-ipadic-neologd/commit/546c4b5e0e2ff335ee0286d55f114da45a7b67bc

今回はエントリの更新と同時に、辞書エントリに真に不要な重複エントリがあったのでそれを削除しつつ、追加する価値があるエントリを追加できないでいた場合はそれを足す処理を増やしました。

辞書の開発で一番大変なのは、実は新機能を内部で追加した時のバグの検知やその修正です。しかも最終的にビルドしてインストールできるか毎回チェックする必要があります。一回の修正がどんな影響を及ぼすかチェックするまでに終盤は毎回大分かかります。今回は気軽に日が変わってすぐに作業し始めて大分後悔しました。

きちんと更新処理の並列化などで工夫して、より速く変更と確認ができるようにしないと、時間が無駄になるなと実感してるところです。

おかげさまで mecab-ipadic-neologd は今のところ 10 uniq cloners / day 程度の速度で新たに利用されており、確実に何処かで利用されているのだなという実感は得ています。
どうもありがとうございます。

他方、どこで利用されているかを僕から検知することは大分困難(Twitter は1日1回チェックしています)です。社会的な意義を数値に換算したり、自身のやる気を維持したりという意味で、使用者の方からどうやって教えていただくか、は今後の課題です。

次回は少なくとも5月上旬に辞書を更新します。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

関連エントリ

[2015-05-01-1] mecab-ipadic-neologd の seed データの 2015 年 5 月上旬分の更新が完了 #neologd
[-] 1

2015-04-02 Thu

2015年04月02日 必要なら結論を訂正することの必要性

昨日は帰宅中に風邪が治った感じを感じながら帰宅したのだけど、
実際にはまだ喉が痛く、朝方は咳が酷い。
治るまであと2日くらいか。体内時計のズレはあっさり治った

やっぱり日記を書かないと蓄積されない。
頭の中を整頓する効果もあるので、テンパってる時以外は書くようにしたい。
何もない日は自分の Tweet を拾ってエントリにしていく様にしよう。

昨日からやってたデータから無駄なフィールドを消す処理の実装は夕方に突然終わった。
あいかわらず工数の見積もりを間違うけど、今回は良い間違えだった。
削減の結果、無圧縮の状態でデータ長を元の1/3にする処理ができた。
今後はこれを使えば良いだろう。
xzで圧縮すると言っても、時間が有限なので元データは小さい方が嬉しい。

木曜なのでアルゴリズムイントロダクションの輪読。
なんと細々と続いて2冊目に突入した。めでたい。
15章の内容は動的計画法。平和な内容で素晴らしい。
帰納法をサボらないで使わないと駄目、という教訓を得た。

夕方はとあるプログラムを書いていた。
このプログラムはイメージ的には、殺虫剤を食らって10秒後に起き上がるゴキブリに対して、薬剤節約のため9秒ごとに殺虫剤をかける、みたいな処理が必要。

以前書いたことがあって、ふんわりイメージしながら書いたら普通にロックした。
こういう時に助けてくれるロックフリー王子がいたら良いのだけど弊社に王子は来ない。
まもなく解決方法を思い出して安心したけど、今日頑張ると日が変わるなと思ってやめた。

夜遅いけど K さんの新卒入社祝いのためいつも空席がある北海道へ。
隣に座ってみてなかなか奇跡的だと感じた。そしてめでたい。

人生の分岐点に立ったときに10歩だけ楽じゃ無さそうな方向に進んで様子をみたり、
ちゃぶ台返しする前にひっくり返したらやばそうなものを避けてみたり、
そういうことを考えてみることは大切で、人生が大きく変わるのだなと改めて思った。

あと、@Yappo さんが温泉ソムリエっぽくなってて、次から次にオススメ温泉を教えてくれた。
「ほったらかし温泉ってすごい名前だな〜neologdで拾えてるのかな拾えてた行ったみたいな」などと考えてた。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

LINE DEVELOPER DAY_2015 Tokyo が 2015 年 4 月 28 日に開催

2015 年 4 月 28 日に、LINE DEVELOPER DAY_2015 Tokyo というイベントが開催される。

- LINE DEVELOPER DAY_2015 Tokyo 開催のお知らせ
-- http://developers.linecorp.com/blog/ja/?p=3479

開催日時: 4月28日(火) 10時開場
場所: 渋谷ヒカリエ 9F ヒカリエホール
参加費: 無料


タイムテーブルを見てみたら、僕も見てみたい発表がいくつかあった。
あとで録画を YouTube とかで見られる様になったら嬉しいと感じた。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

Treasure Data が凄そう

朝起きたら @myui さんと @kamipo さんが Treasure Data に入社してた。
おめでとうございます ^^。


Treasure Dataには、@tagomorisさんが3月入社で、@kamipoさんと私@myuiが4月入社と、事業拡大に向けてエンジニアの採用強化中です。


新しい概念を考案・構築して実現する能力を持っている方々が輝くのは自分にとって目標になるし、おまけに友人知人なので嬉しい。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2015-04-01 Wed

2015年04月01日 年度初め効果なのかふと我に返る

今年度はアウトプットの年なので、3日坊主でも何でも、多少どこかに自分の考えたことを書いておかないと、アウトプットしたものが無意味な存在になった時に何も残らなくなるなと思った。

年度末の日報を眺めると辞書の公開が決まったあたりから日常生活に割く時間が足りなくなっていたようだ。
今日になって突然、何となく回ってなかった部分に気が回る様になってきた。

午前は辞書の更新作業とその後始末。これは今後数年粛々とやりたい。

ランチにかけて歴史的経緯のあるデータから無駄なフィールドを見つけて削る処理を書く。
以前にも書いたことがあるけど、その時よりも無駄なフィールドが増えていて、何となくクーロン城の映像が頭に浮かぶ。

夕方前はデンソーアイティーラボラトリさんで @uchumik さんと雑用。
多人数でやると消化が速いが、一人でやると悩みそうな作業。
この作業を来年一人でやって悩む可能性があるのかと思うと悪寒で鳥肌が立つ。
他方、どうせやるなら効果的にやらないとなという真面目な思いで頭が満たされている。
今年は何もトラブルが起きずに最後までいくと良いですね。

帰り際に DSIRNLP 07 を4/29にやることにする。
会場はデンソーアイティーラボラトリさんなので、とてもありがたいし安心感がある。

夕方はまた戻ってデータの削減作業。
これは、地味にあと数日かかる気がしてきた。

水曜日なので夕方は Python によるデータ分析入門の輪読。
読み進むにつれて、その便利っぽさが本当に便利なのか怪しくなってくる。
裏側でどう処理しているかが分かるし、高速って言っても裏はC/C++だろうし。
ループ処理が書いてあると見通しが悪い、と感じる人と、処理が隠蔽されているとキモいしAPIがキモイ、って感じる人と、いいろなんだろうなと思う。
とはいえ、大変に普及しているライブラリなのだから、その使い心地から感じるものがあるまでは使わないとなと思う。

ここしばらくの寝る前の体調を思い浮かべると、体のリズムが理想より5時間ずれている気がする。
風邪もほぼ治ったので今日から戻していく。しばらくランチ後に眠いだろう。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

文字情報基盤の文字をJIS範囲の文字への変換するMJ縮退マップ

約6万字の文字情報基盤の文字を約1万字のJIS範囲の文字に変換するためのMJ縮退マップというデータが試験的に公開されている。そのうち正式版が出るようだ。

こういうデータは計算機上で扱う文字の種類数を減らしたい人間からするととてもありがたい。

MJ縮退マップとは

MJ文字情報一覧表で整備されている戸籍統一文字と住民基本台帳ネットワークシステム統一文字を合わせて整理した、約6万文字の文字情報基盤の文字(MJ文字集合)と、約1万文字のJIS X 0213(JIS第1水準~第4水準)の文字との対応関係を、辞書や人名に係る各種告示等を根拠として整理した物です。


以下を組み合わせてフィルターを作ることになるようだ。

- MJ縮退マップVer.0.1(検証版)の公開
http://mojikiban.ipa.go.jp/4141.html

- MJ文字情報一覧表Ver.004.02
-- http://mojikiban.ipa.go.jp/1311.html

それにしても、実際にUTF-8なコードで雑に使える map 構造するまでにちょっと面倒だなという印象。

ほぼ文字と文字の組だけで示してくれれば良いのに、キーとなるMJ******な文字を
別のテーブルから持ってこないといけない。ダルい。でも、活用するしか無い。

多分そのうち活用させていただきます。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

mecab-ipadic-neologd の seed データの4月上旬分の更新が完了

日が変わってすぐに、mecab-ipadic-neologd の seed データの4月上旬分の更新作業をしました。



前回の定期更新扱いの更新が3/17なので、いまのところ順調だと思います。

辞書の更新は淡々とやりつつ、他のこともやりながら、mecab-ipadic-neologd の見えている課題を順に解決して、確実に tag を作っていくのが当面の課題だなと思います。

次回からきちんとブログの記事にして告知しようと思いました。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

関連エントリ

[2015-04-16-1] mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd
[-] 1