前の日 / 次の日 / 2015-04
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2015-04-01 Wed

2015年04月01日 年度初め効果なのかふと我に返る

今年度はアウトプットの年なので、3日坊主でも何でも、多少どこかに自分の考えたことを書いておかないと、アウトプットしたものが無意味な存在になった時に何も残らなくなるなと思った。

年度末の日報を眺めると辞書の公開が決まったあたりから日常生活に割く時間が足りなくなっていたようだ。
今日になって突然、何となく回ってなかった部分に気が回る様になってきた。

午前は辞書の更新作業とその後始末。これは今後数年粛々とやりたい。

ランチにかけて歴史的経緯のあるデータから無駄なフィールドを見つけて削る処理を書く。
以前にも書いたことがあるけど、その時よりも無駄なフィールドが増えていて、何となくクーロン城の映像が頭に浮かぶ。

夕方前はデンソーアイティーラボラトリさんで @uchumik さんと雑用。
多人数でやると消化が速いが、一人でやると悩みそうな作業。
この作業を来年一人でやって悩む可能性があるのかと思うと悪寒で鳥肌が立つ。
他方、どうせやるなら効果的にやらないとなという真面目な思いで頭が満たされている。
今年は何もトラブルが起きずに最後までいくと良いですね。

帰り際に DSIRNLP 07 を4/29にやることにする。
会場はデンソーアイティーラボラトリさんなので、とてもありがたいし安心感がある。

夕方はまた戻ってデータの削減作業。
これは、地味にあと数日かかる気がしてきた。

水曜日なので夕方は Python によるデータ分析入門の輪読。
読み進むにつれて、その便利っぽさが本当に便利なのか怪しくなってくる。
裏側でどう処理しているかが分かるし、高速って言っても裏はC/C++だろうし。
ループ処理が書いてあると見通しが悪い、と感じる人と、処理が隠蔽されているとキモいしAPIがキモイ、って感じる人と、いいろなんだろうなと思う。
とはいえ、大変に普及しているライブラリなのだから、その使い心地から感じるものがあるまでは使わないとなと思う。

ここしばらくの寝る前の体調を思い浮かべると、体のリズムが理想より5時間ずれている気がする。
風邪もほぼ治ったので今日から戻していく。しばらくランチ後に眠いだろう。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

文字情報基盤の文字をJIS範囲の文字への変換するMJ縮退マップ

約6万字の文字情報基盤の文字を約1万字のJIS範囲の文字に変換するためのMJ縮退マップというデータが試験的に公開されている。そのうち正式版が出るようだ。

こういうデータは計算機上で扱う文字の種類数を減らしたい人間からするととてもありがたい。

MJ縮退マップとは

MJ文字情報一覧表で整備されている戸籍統一文字と住民基本台帳ネットワークシステム統一文字を合わせて整理した、約6万文字の文字情報基盤の文字(MJ文字集合)と、約1万文字のJIS X 0213(JIS第1水準~第4水準)の文字との対応関係を、辞書や人名に係る各種告示等を根拠として整理した物です。


以下を組み合わせてフィルターを作ることになるようだ。

- MJ縮退マップVer.0.1(検証版)の公開
http://mojikiban.ipa.go.jp/4141.html

- MJ文字情報一覧表Ver.004.02
-- http://mojikiban.ipa.go.jp/1311.html

それにしても、実際にUTF-8なコードで雑に使える map 構造するまでにちょっと面倒だなという印象。

ほぼ文字と文字の組だけで示してくれれば良いのに、キーとなるMJ******な文字を
別のテーブルから持ってこないといけない。ダルい。でも、活用するしか無い。

多分そのうち活用させていただきます。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

mecab-ipadic-neologd の seed データの4月上旬分の更新が完了

日が変わってすぐに、mecab-ipadic-neologd の seed データの4月上旬分の更新作業をしました。



前回の定期更新扱いの更新が3/17なので、いまのところ順調だと思います。

辞書の更新は淡々とやりつつ、他のこともやりながら、mecab-ipadic-neologd の見えている課題を順に解決して、確実に tag を作っていくのが当面の課題だなと思います。

次回からきちんとブログの記事にして告知しようと思いました。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

関連エントリ

[2015-04-16-1] mecab-ipadic-neologd の seed データの4月中旬分の更新が完了 #neologd
[-] 1