前の月 / 次の月 / トップページ
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

2010-09-25 Sat

第2回自然言語処理勉強会@東京

第2回自然言語処理勉強会@東京に参加しました。
会場は渋谷のECナビさん。

幹事の@nokunoさん、会場提供の@ajiyoshiさん、発表者のみなさんありがとうございます。

■発表
「あずにゃんに関連する検索キーワード」→「あずにゃん ペロペロ」を実現するクエリ推薦技術について(仮) by @y_benjo さん
FSNLP6章読みながら「n㌘入門」的なこと(仮) by @naoya_tさん
Malettを使ったLDA(仮)by @tsubosaka さん
「ナイーブベイズで言語判定」(仮) by @shuyo さん
「Mozcソースコード徹底解説」(仮) by @nokuno

■参加者 (47 人)
nokuno : 主催です
smly : よろしくおねがいします
naoya_t : 2get
AntiBayesian : よろしくおねがいします。
y_benjo : よろしくお願いします
y-shindoh : 楽しみにしております。
showyou : あれ?3週連続ここ・・
uchumi : 初参加です。 よろしくお願いします。
ところてん :
yanaoki : よろしくお願いします。
fuzzy.sphere : よろしくお願いします
hamadas : よろしくお願いします
tb_yasu : よろしくお願いします。
koichi.harakawa : よろしくお願いします。
mizuno_takaaki : よろしくお願いいたします。
nagayoshi3 : よろしくお願いします。
sleepy_yoshi : よろしくお願いします
overlast : すましい願おくしろよ
sugistat : 宜しくお願いします。
fujichan.k : 初参加です、よろしくお願いします
gami : よろしくお願いします
technohippy : 自然言語処理って全然知らないですが・・・
yayamamo : 初めての参加。よろしくお願いしますー。
kimukou_26 : 今回もよろしくお願いします<前回の勉強会の内容せいぜい半分くらいしかわからなかったけど・・(汗
shkumagai : 初参加ですが、よろしくお願いします
usuihiro : よろしくお願いします
backbeard : よろしくお願いします。
ohkura : 初参加。よろしくお願いします。
norizm : よろしくお願いします.
tma15 : よろしくお願いします
n_shuyo : よろしくです。
Sase : 初参加ですが、よろしくお願いします。
tkng : 初参加です。よろしくおねがいします。
makimoto :
tsubosaka : よろしくおねがいします
tkshf : 初参加です。よろしくお願いします。
mahata : よろしくお願いします。
tayutaedomo : 初参加です。よろしくお願いします。
mumoshu : 初参加です!よろしくお願いしますー
rakuten201002 : 初参加。よろしくお願いします。
penguinana : よろしくお願いします
nejigane : 初めてですが参加させていただきます。
knagano : よろしくお願いします
oskimura : 補欠として
Naruhodius :
moro-tyo : よろしくスベり込みございます。
kiyoya :


@tkngさん、@mizuno_takaakiさん、@sleepy_yoshiさんなどと久々に会えてよかったです。

メモ


冒頭に自己紹介タイムがあった。本勉強会のように参加メンバーが固定されていない勉強会では自己紹介を効果的にする必要がある。
「明るく」「はっきりと発音」「IDはできれば始めと終わりに二回言う」の3点を気をつけた方が良いな、と、自分の自己紹介が終わってから気がついた。
あとは発表するのが一番の自己紹介になるのは間違いない。

発表の質疑応答で「bi-gramとか、どこで使われてんの?」という素朴な質問がされ、それに@ajiyoshiさんが割とやさしめに答えるということがあった。
このように分からないことを素直に聞ける雰囲気がある勉強会は素晴らしいと思う。
それと同時に、発表者に対して聴講者から、技術と応用の対応付けを意識し応用例をあげるなど、発表上の工夫が求められていたと感じた。

発表の内容は若手向けの割と技術に偏った内容中心。

@y_benjoさんの発表はさすが、という感じだったがあのスライドのスピードで数式を追い理解しきることが僕にはできなかった。未熟。修行する。

@naoya_t さんの発表は大変平易でよかった。
さっと理解してさらりと次にいってしてしまいがちな N-gram のことをあえて分かりやすく説明するのは面倒だったと思う。

@tsubosakaさんの発表は大変分かりやすく、できるかぎり平易に正しく情報を伝えようとしている点に好感をもった。
また僕は国内で使っている人を知らなかった Mallet という McCallum 先生による Java で実装されている機械学習のツールキットをソースコードを読みながら実際に使用して、その有用性を検証していたことも素晴らしい。

- MALLET homepage
-- http://mallet.cs.umass.edu/

それにしても Mallet の速さはとても魅力的だけ、@tsubosakaさんの「ドキュメントがねぇ。。」という発言とを聞いていると、オープンソースのアプリケーションはドキュメントを充実するが最終的に最も大切なのではないか、と思った。
僕は、ちょっと書いただけのライブラリについては「ヘッダファイル読めば分かるよな」と考えてドキュメントを書かない場合がある。
今後はそのような考えを改める必要がある。

@nokuno さんによるMozcの解説はポイントを絞って解説されていたので分かりやすかった。
けれどC++11万行のコードの解説をそんなに早く終われるわけがないので、興味がある人は自分で読むしかないのだろう。
コードを読んだ系の発表では、どのソースコードから読むと読み解きやすいか、や、アプリケーションの挙動例を使ってソース全体の動きを大雑把に伝えるとか、そういうソフトな情報も盛り込むと良いのだなぁと勉強になった。

@shuyo さんによる言語判定に関する発表は、文型寄り自然言語処理の王道をいくような泥臭い発表であった。
そして僕が全く知らない知見が山のように含まれた発表だった。
この発表資料は、来年から自然言語処理の研究室で研究に取り組もうとする学部生の方が、一度読んだ方が良い資料だと思った。
「普通は着手に躊躇するようなポイントに、ともかく足を軽く突っ込んで、そこそこの解決策を見つける」というスタイルは尊敬に値するとおもった。

ただ、今回の発表に対して発表内容が多過ぎたので、是非単独でサイボウズラボ内などで数部に分けて講演を行なって欲しいなと思った。
資料に各作業にどれくらい時間をかけたのか、が書いてあると後で読んだ学生さんの参考になるかなと思った。

手法の選択や実験について、多少違和感を覚える部分があったけど、全体としては素晴らしい研究発表だったと思う。
とくに「世界中の言語を判定する」というビジョンと、分からない現象があったら未知の言語でも学習するというブルドーザーのようなパワーは僕に無いものだと思ったので、身につけたい。

また、@shuyoさんの作った言語判定アプリは既に公開されている。

作成したライブラリはこちらにて Apache License 2.0 ですでに公開している。
言語プロファイルも付属している(まだ性能が出せていなかったデンマーク語などのいくつかの言語を除く46言語分)ので、すぐ試してもらえるようになっている。

http://code.google.com/p/language-detection/


素晴らしい。そして、このような有益なアプリの公開を認めたサイボウズ・ラボも素晴らしい。

資料


- 自然言語処理研究会 - tsubosakaの日記
-- http://d.hatena.ne.jp/tsubosaka/20100925/1285424360

- 「Mozcソースコード徹底解説」 at 第2回自然言語処理勉強会 - nokunoの日記
-- http://d.hatena.ne.jp/nokuno/20100925/1285429764

- 自然言語処理勉強会で「ナイーブベイズによる言語判定」を発表してきました - Mi manca qualche giovedi`?
-- http://d.hatena.ne.jp/n_shuyo/20100925/language_detection

- Query Suggestion @ tokyotextmining#2
-- http://www.slideshare.net/ybenjo/query-suggestion-tokyotextmining2

関連リンク


- 自然言語処理勉強会@東京 | Google グループ
-- http://groups.google.com/group/tokyotextmining

- Togetter - 「第2回 自然言語処理勉強会@東京 (#tokyotextmining)」
-- http://togetter.com/li/53740

- language-detection - Project Hosting on Google Code
-- http://code.google.com/p/language-detection/

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2010-09-24 Fri

日本のどこかの竹やぶには1億円が落ちているという幻想

昨日は昼頃に起床。
作業を祝日の月曜日にやったので代わりにお休みした。


ぶらりと外に出て、恵比寿のうどん屋でかけうどんを食べて新宿で用事をこなした。

その後、新宿の紀伊国屋で気になる本を物色した。
目的の月刊の本は既に売り切れ。
来月から定期購読した方が良いかな、と思い詰めたりした。

書店で技術書を眺めてると、やけにScalaの参考書が目立っていた。
今まで目に付いていなかったけど、情報科学若手の会に参加して水島さんの話を聞いたからかも。
既に5冊もScalaの参考書ってでていたことに驚き。
周囲でScalaを使っている人がそんなにいなかったけど、これからScalaユーザが増えるのかな?

Scalaスケーラブルプログラミング(Programming in Scala)

[Amazonで詳細を見る]

Scalaプログラミング入門

[Amazonで詳細を見る]


新宿駅方面に向かって、タワーレコードで気になってたCDを物色したりした。
気になってたのは「凛として時雨」の新しいアルバム「still a Sigure virgin?」。

still a Sigure virgin?

[Amazonで詳細を見る]


これは傑作。個人的には8曲目と9曲目が好き。

夕方


夕方は渋谷でお茶を飲んでいら、隣のテーブルで男性二人が大声で興味深い話をしていた。
要約すると「すべての問題は、他人によって既に利用可能な状態になっている既存のアイディアで解決できる」という話だった。

僕は、すべての問題を既に利用可能な状態になっている既存のアイディアで解決できる、という考えは幻想だと思う。
もちろん、解決できる場合もある。
しかし、解決でない場合もあるということだ。

また、すべての問題を誰か他人が完璧にスッキリ解決してくれる、ということは今までの人生でほとんどなかった。
たぶん、これからも何事に関してもそうだと確信している。

そもそも何かを実行するときに、既存のアイディアで解決できる場合とできない場合がある。
誰も体験した事がないような状況を解決するアイディアは世界中を探しても見つからないだろう。

また既存のアイディアが何か形になっている場合となっていない場合がある。
さらに形になっていないアイディアの実行を他人に任せて、うまく行く場合といかない場合がある。

状況を慎重に見分けたうえで、もしも「既に利用可能な状態になっている既存のアイディアで解決できない問題」に対処する場合には、
腰を据えて長期間まじめに自前で妥協しないで筋の良い新しいアイディアに基づいて対処した方が長期的には利益があると思う。

そして、アイディアを実行をする人は長期的な利益が出るように行動して当然だと思う。
短期的な利益を追い求めると、結局ボロが出てそのボロを修復する作業で忙殺されがちだ。


というようなことを考えてしまうイベントがあった後、ブックファーストとブックオフで本を物色した。
久々に本屋を回ってみて思ったことだけど、1日に1冊自分が気になるジャンルの本を読むのは悪くないかも。

今日は『「時短テク」より「時間戦略」で生産性を上げる! ハイペース仕事術』をサラリと読んだ。

「時短テク」より「時間戦略」で生産性を上げる! ハイペース仕事術

[Amazonで詳細を見る]


本書は、仕事と生活のバランスが崩れがちの僕にピッタリの本だったかも。

・1章の「時間をかけて結果を出す事で辻褄をあわせると一時的に効果はあるが、後でツケが回ってくる」という表現には同意。
・3章の「スピード重視」と「質重視」の使い分けの話は、普段から意識しているけれどさらに気をつけたい。本書には質をそこそこでもリリースしてしまうという言葉は実際に運用するときに、妥協の温床にもなるかもしれない。しかし早くリリースすることは心がけたい。バランス感覚が大切だなぁ。
・5章の「平日の夜は1つか2つのことを確実にやる」という表現は気持ちが楽になる。僕はやりたいことが沢山あるので、つねにやりたい事だらけで一晩に消化できることが少なすぎることに苦しむことが多い。1つか2つ確実に、という気持ちは是非持ちたいと思った。
・「本を雑誌のように、雑誌をチラシのように読む」は心がけたい。最近読書の量が減りすぎていて、精読し終わっている本が少ないことよりも、絶対的な量が足りない事が僕の内面的には問題になってきている。
・「娯楽をゼロにすると絶対に失敗する」は、心あたりがある。精神的に疲れてダラダラと頻繁に小休止するよりは、その時間分「ちゃんと遊んだ」と思える遊び方を選んで遊んだ方が、強い心を保てるかもしれない。


とてものんびりとした1日だった。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2010-09-23 Thu

中華料理 龍王 (横浜)

夕食は横浜駅で食べた。
どこにしようか迷ったけど大雨で駅から出る気がしないので相鉄線の下、パソピアード(ゲームセンター)の裏の「龍王」まで歩いた。

龍王が潰れていないか分からないで行ったけど、行ってみたら、まだあった!
周囲のお店も、そこそこ残っていた。

P1150828 P1150826

龍王は通っていた平沼高校の最寄り駅が横浜駅だったので、大学に行くまでは割と頻繁に通っていた。
何年ぶりか忘れたけどサンマーメンを注文。580円。安い!
たぶん、当時とあんまり値段が変わっていない気がする。

実のところ味は記憶の中で美化されていた味よりも劣っていた。
でも、おいしい。
値段の割に、十分なおいしさと十分な量。近所にあったら結構な頻度で行くと思う。

また思い出した頃に行ってみよう。。

- 龍王 リュウオウ - 横浜/中華料理 [食べログ]
-- http://r.tabelog.com/kanagawa/A1401/A140101/14001655/
場所:神奈川県横浜市西区南幸1-5-24

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

今川焼うまい

おなかが空いたのでおやつに今川焼を食べた。

P1150825

うまいなぁ。

それにしても恵比寿・渋谷のどこかで今川焼を買えるのだろうか。
鯛焼き屋は頻繁に見かけるんだけど。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

蕎麦・うどん 川村屋 (桜木町)

JR桜木町駅の改札前にある川村屋という蕎麦屋でランチ。
店内に天ぷらがオススメと書いてあったので天たま蕎麦を注文。

P1150824 P1150823

自慢するだけあって天ぷらは富士そば(ベースライン)よりも美味しかった。
ダシは普通かな。特に香り高いということもなく関東醤油なおそば。
今度から桜木町駅に用事があって急いでいるときはココで良いかも。

- 川村屋 かわむらや - 桜木町/そば [食べログ]
-- http://r.tabelog.com/kanagawa/A1401/A140102/14004427/
場所:神奈川県横浜市中区桜木町1-1 桜木町駅構内

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

気温が昨日より10度くらい下がったみたい

おとといから日記を眠くても書いているのだけど、眠いときに日記を書いていると日中なら書かない自重が足りない表現が含まれる場合があって、自分で書いてるのに翌朝ドキドキする。

今日は朝から横浜まで用事を消化するために外出。

それにしても今日は寒い。
その寒さのせいか、昼ご飯を食べたそば屋のおばちゃんが
「今年は秋が無くていきなり冬になるみたいよ」
という噂を別の従業員に吹聴してた。マジすか。

朝に渋谷駅で電車に乗ったときには、雨が降っていたけどTシャツでも寒くなかった。
だけど昼前に1つめの用事が終わって移動する際に外に出たときには寒過ぎて鳥肌もの。
しかも大雨と強風で寒さ倍増。
その場しのぎにユニクロで何か長袖のシャツを買おうかと思ったけど、
寒さと大雨で傘をさして移動することもままならないので、それも実現できず震えつつ移動。

全ての用事をおえて、帰宅して落ち着いた後、気象庁のWebサイトで関東地方の気温を確認して驚いた。
9月23日の0時の渋谷あたりの気温は16.7度程度。
9月22日の0時の気温が27度だったので、1日でだいたい10度位気温が下がってる!!

20100922_01

これは気温が下がるペースが早過ぎ。ちゃんと洋服を調整しないと間違いなく風邪をひきます。
今日寝るときは、長袖シャツ&長ジャージズボン着用、クーラー無しで寝よう。

なんでこんなに寒いのか、を調べてみると、気象庁が寒候期予報を発表したという記事を見つけた。

- 今冬、気温「平年並み」だが寒く感じる 気象庁予報:日本経済新聞

「冬支度は念入りに」。気象庁が22日発表した寒候期予報(10月~来年2月)によると、気温は10月まで全国的に高めだが、寒気の影響を受け、徐々に平年並みに落ち着く見込み。同庁は「ここ数年暖冬が続いたため、今年の冬は特に寒く感じそう」としている。


「平均並みの気温になったときに、今年の夏の平均気温が高めだった影響で、感覚的に例年より寒く感じる」ということらしい。
冬の寒さも厳しく感じるのか。うーん。つらいっすね。

関連リンク


- 気象庁 アメダス:関東地方
-- http://www.jma.go.jp/jp/amedas/206.html?elementCode=2

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2010-09-22 Wed

一番どり 六本木店

今日のランチは、泉ガーデンタワーの一番どりで「とり唐おろし丼」。710円。安い。

P1150820 P1150819

大根おろし、なすの素揚げ、鶏の唐揚げのどんぶり。
最初は、ちょっとご飯が少ないかな?と思ったけど、最後にはきちんとお腹が満たされた。
大根おろしのおかげで最後まで美味しく食べられたのが嬉しい。

ここは散歩ついでにお安くランチを食べたいときに良いな。
ごちそうさまでした。

関連リンク


- 一番どり 六本木店
-- http://r.tabelog.com/tokyo/A1307/A130701/13038683/
場所:東京都港区六本木1-6-1 泉ガーデンタワー 1F

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

モチベーションが一番大切

朝は友人からの深刻な人生相談をされる。あまり立ち入れないから分からないことも多いけど、なかなか深刻な状況っぽい。
結論としては、相手の能力・将来性の価値を信じてくれて自らの生活力に応じた相対的なコミットをしてくれる人を見つけるべき。と思った。

ランチ後は友人らと秋の作業予定を固めた。
みんな、各自やりたいことがあって良いと思います。
秋もなかなか厳しいことになりそうだけど、何かきちんと形に残したい。

夕方早くに作業を切り上げて外の空気を吸ったので、
体調も良くモチベーションも維持できていた。

調子が良いので、夕方から夜にかけて考えごとをした。

ふと頭に浮かんだことは、やりたい事がありすぎてストレスになっている気がする。ということ。
足りない能力、身につけるべき能力、やっておくべきことなど、
いろいろ思い浮かぶけど、限られた時間の中で全部やるのは無理。

何をやるのか、何を絶対にやらないのかを選ばないと。

たとえば、もっとも優先度の高そうな作業を列挙してみる。

- 英会話の経験値を稼ぐ
- 基礎的な知識の反復練習
- 2〜3個の実務で使ったことのないプログラミング言語を使う
- いま作っているものを形にする

この数ヶ月はこういうことを考える余裕すらなかった。(笑)。
たぶん、今年の年末までにコレらを全部満足できていれば、いちおう合格な気がする。
あと夏の間は読書が滞りまくったので、明日から作業をやりつつ消化していきたい。

そういえば先日、以下の本をAmazon.comで注文した。

Flexible Pattern Matching in Strings: Practical On-Line Search Algorithms for Texts and Biological Sequences

[Amazonで詳細を見る]

Statistical Machine Translation

[Amazonで詳細を見る]

Information Retrieval: Implementing and Evaluating Search Engines

[Amazonで詳細を見る]


Flexible Pattern Matching in Stringsは友人に借りて、すでに一部を読んでいる。
他の2冊はまだ読んだ事が無い。早く手元に届いて欲しいな。

Information Retrieval: Implementing and Evaluating Search Enginesは多数の友人が買っているので輪読するかも。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2010-09-21 Tue

沖次郎 赤坂

ランチは赤坂の沖次郎で12貫寿司ランチ。750円。
味は普通。でも手放しでうまいと言えない感じだった。

沖次郎の寿司はちょっと日に日にクオリティが下がっている気がする。
ネタの種類、ネタの質、など、どれをとってもオープン時以下。
1000円で良いから、もう少し美味しくして欲しい。

職人さんも集中力が切れているし、オープンのころより仕事が荒い。
道具の手入れもできていないような状態っぽかった。

とはいえ、オープン当初のすばらしい沖次郎が忘れられないので、あと一回は行こうと思う。

過去の日記


[O] 湘南地魚 佐島・寿司処「沖次郎」 (赤坂) [2010-05-25-2]

関連リンク


- テーブルスタジオ・タキトー|クッキングスクール
-- http://www.table-studio.jp/

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

夏の作業が区切れた

昨日で夏の作業が区切れたことになった。だけど後味が悪すぎる。

この夏は、いろいろやり直したいと思うような酷いシーズンだった。
僕が1年間取り組んできたことのうち、自分が一番思い入れがあったことは実を結ばないままだ。
しかも、また大人の事情ってやつで再来年までは高い確率で実を結ばないことも何となく分かった。
こういう「大人の事情を体験する」という目的も数年前にもっていたので、ともかく、それは多分達成できた。

一応区切れで、丁度良い機会なので、今日から昨日までの生き方と少し違う生き方をするようにする決意をした。

より自分や自分の家族を大切にし、より自分の友人に配慮しつつ、より真剣にまじめに集中して生きたい。
この1年間は色々あったけど、目指している能力の伸びを達成できなかった。足踏みしてしまった一年だった気がする。
僕より厳しい状況でも、能力を伸ばしている人は沢山いるように僕からは見える。
僕を取り巻く環境はすぐには変えられないので、僕自身の時間の使い方を変えることで解決する必要がある。

ときどき、僕の発言を参考になる、と冗談でも言ってくれる人がいる。
僕自身は自分の足りない部分を知っているので、なんとも申し訳ない思いがあるが、とても励みになる。ありがたい。
最近は、ありがたい、と同時に、何らかの責任の取り方がある気がしてきた。
その責任の取り方がどういうものなのかは、まだハッキリとは分からない。
だけど、今よりも強く確信をもった発言をしたり、フォローをしたりできるようになりたい。

ものを作る時に使う道具に変化を付けたいとも思っている。
普段使っているプログラミング言語、知識の幅からはみ出た道具のうち、自分の尊敬する友人が使っている道具を積極的に使いたい。
僕は何事も最初は形から入るタイプで、それでうまくいっているので多分間違ってないと思う。

自分の内面は、とげとげの剣山のような状態を少なくしたいし、流れる水のような柔軟さと強さを持ちたい。
水のように流れるためには、普段から自分を鍛えている必要があると思う。まだまだ僕は訓練が足りない。
周囲にいる柔軟性の高い友人を見ていて、そう思った。

僕はこれらのようなことを考える程度に落ち着いてられない状況に置かれているし、すごく焦っている。
秋は、落ち着かないのは諦めるとして、焦りが減るように動く。ぞ。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |