「Managing Gigabytes」の輪講、6章からの参加者募集のお知らせ

「Managing Gigabytes」という洋書を読む勉強会を2009年4月から、有志で開催しています。参加者みんなのモチベーションが高いおかげで定期開催をコツコツ重ねて、そろそろ6章に到達しそうです。

Managing Gigabytes: Compressing and Indexing Documents and Images

[Amazonで詳細を見る]


「Managing Gigabytes」は、1999年の出版です。ちょっと古い記述も含まれていますが、検索エンジンの実装と、データ圧縮やデータ構造について、バランス良く掲載されており好感をもちました。

去年1年、みんなで読み進めていましたが、この本はもっと早く読んでおけばよかったなと後悔しているところです。

あと1ヶ月後くらいには6章に到達するのですが、6章はちょうど区切りが良いのです。6章までに検索技術の基本が終わり、6章からはOCRや画像に関するお話が始まります。その後テキスト情報と画像から抽出した情報を混ぜる方向へ。詳しくはGoogle Booksのプレビューで目次を見てください。

Managing Gigabytes : Google Book

ですので、6章からの参加者を若干名募集します。5人位かな。。



参加者の条件


条件は以下の 4 項目を満たしていることです。

(1) 英語が読める:
  テキストが英語のみです。教科書なのでそんなに難しくはないです。
(2) プログラムが書ける:
  プログラム書いたことないっすー、という人はたぶん無理です。
(3) アルゴリズム、データ構造の基礎を理解している:
  リストとかハッシュとかTreeとか。計算量の知識も最低限は必要で、今「Nの二乗のオーダー」の意味が分からない場合は厳しいと思います。
(4) 検索エンジンの実装について基礎を理解してる:
  初回が第6章になります。検索エンジンに関する教科書を何か一冊読んだことがあり、どこかのWeb文書がユーザのクエリで検索可能になるまでに、どんなことが起きているのかが分かっていないと厳しいです。IIRを通読したことがあれば大丈夫です。

とりあえず、以下のIIRの第一章の最初の1ページを読んでみて、30分以上かかる人はご遠慮下さい。この教科書は内容がすばらしいうえに無料ですよ。

- Introduction to Information Retrieval
-- http://nlp.stanford.edu/IR-book/information-retrieval-book.html

参加者には、のちのち各章の和訳や発表を担当して頂きます。ある程度の知識とやる気がある人に限定したいと思います。




参加してくださる方は、上記の条件をクリアできてるか確認し、「自己紹介」と「意気込み」を「overlasting あっと Gメーールだっとコーーム」まで電子手紙を送ってください。件名には「MG勉強会参加希望」と書いて下さい。

勉強会は土日なので、土日に都内に来られない方は、かなり根性がないと参加が難しいと思います。あと、この本はPDFとか無いので自分で洋書を買わなきゃ駄目です。ちょっと内容がハードなので気合い入れてきてください。

画像検索やOCRに興味がある方や、過去にそれらに関連する研究開発テーマに取り組んだことがある方は、とくに歓迎いたします。

質問はTwitterの@overlastが受け付けます。

以上です。よろしくお願いします。


投稿者:としのり  日時:23:59:59 | コメント | トラックバック |
blog comments powered by Disqus