2007-05-17 Thu

株式会社ブログウォッチャーのキックオフ

東京工業大学の奥村研のblogWatcherをメインに企業化した、
株式会社ブログウォッチャーのキックオフミーティングがありました。

ミーティングのあとは、勝どき橋の向こうの「魚がし」で飲み。
階段が強烈に急ではしごみたいだったので驚いた。

画像画像

魚がしの料理は、美味しくて最後まで楽しめました。

飲み会の間は同じ場所に座っていたけれど、
最後まで勉強になるなーと思いながら話を聞いてました。

ブログウォッチャーの新サービスが大成功しますように!!

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

勝どき橋

勝どき橋の横の川原から夕日をパチリ。

画像

こういう景色が近い場所で働くのも悪くないな。

水か緑は質に関わらず人間に必要なんだな。
もちろん、質が良ければ申し分ないですね。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

広告なしの大江戸線

広告に慣れすぎている目には、広告が無いことが新鮮だった。

画像

普段あるものが無い、ということは、すごく目立つことなんですね。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

20代後半の日本人から見て乱れてる日本語

nowaのブログから転載。



研究で何かをするプログラムをつくってるんですが、
最近は理解に苦しむ日本語が多いですねー。

日本語を処理するときには、諦めが重要で、
絵文字や意味不明なフレーズはノイズとして捨てればよいのです。
最近ノイズとして多い気がするのは、ひらがなの小さいやつを多様する人。

たとえば

「ぁたしゎー元気だよ!」

みたいな。

現状は、ほとんど捨てているけど、活用を考えると
ぁたしゎー→あたしはー→私は
って何回も変換しなきゃいけないですね。めんどくさー。

こういう日本語は解析しづらくて仕方がないけれど、
今後の日本語を考えると変換モデルを作ってあげなきゃいけないのかも。
意外とルールがきっちりあったりして・・・。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

CaboChaにUTF-8な文字列を入力できない問題

CaboChaにUTF-8な文字列を入力したいと思って、
いろいろと試してみて分かったことがあるのでメモ。

入力した文字をCaboChaに理解させるためには、
CaboChaのmodelをUTF-8に変換する必要がある。
そのためにmodelのtext表記版をUTF-8化する。
これをUTF-8にして、コケるのは実はCaboChaじゃなくて
YamChaのPKE.pmの内部でmkdartsする部分。
これは単体配布版のdarts-0.31に差し替えても落ちる。
たぶんmodelに書いてあるエントリUTF-8用に
ソートされていないのではないだろうか。
もしくはmodelをPKEで読み込んだあとのソートが
うまくいっていないのではないだろうか。

そこらへんを見なきゃいけないのでは、と言うところで
時間が切れてしまったのでCaboChaに入力するためだけに、
MeCabの出力をeucにして、またutfに戻すむなしい処理を追加した。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |