2010-05-04 Tue

「言語処理のための機械学習入門」が近日発売

高村さんが「言語処理のための機械学習入門」という書を執筆なさったのですが出版されます。
今後、機械学習に手をつける学生さんが序盤に読む超定番本になるのでは。

言語処理のための機会学習入門

[Amazonで詳細を見る]


「高村さん」による「機械学習」の「入門テキスト」。この組み合わせだけで大変に期待が持てます。

- コロナ社|書籍詳細|機械学習入門
-- http://www.coronasha.co.jp/np/detail.do?goods_id=2728

自然言語処理シリーズ 1
言語処理のための 機械学習入門	

東工大教授 工博 奥村学 監修
東工大准教授 博士(工学) 高村大也 著

判 型:A5
予定ページ:224頁
ISBN:978-4-339-02751-8
予定価格:2,800円

自然言語処理における機械学習の利用について理解するため,
その基礎的な考え方を伝えることを目的としている。
広大な同分野の中から厳選された必須知識が記述されており,
論文や解説書を手に取る前にぜひ目を通したい一冊である。


目次を確認すると、他の教科書とは重ならない内容で、既存の和書では得難いトピックを扱われています。
大学院や企業で、最近になって自然言語処理や機械学習をはじめた人には間違いなく必要になる本なので、後先考えなくても大丈夫です。

和書の自然言語処理関連の書籍のなかでは近年のベストなのでは。
高村さん、執筆おつかれさまでした。今後もサポートや改訂など頑張ってください!

[2010-07-08]:追記
とうとう「言語処理のための機械学習入門」が発売されました。なので、記事に追記しました。

目次


機械学習入門

1. 必要な数学的知識
1.1 準備と本書における約束事
1.2 最適化問題
1.2.1 凸集合と凸関数
1.2.2 凸計画問題
1.2.3 等式制約付凸計画問題
1.2.4 不等式制約付凸計画問題
1.3 確率
1.3.1 期待値,平均,分散
1.3.2 結合確率と条件付き確率
1.3.3 独立性
1.3.4 代表的な離散確率分布
1.4 連続確率変数
1.4.1 平均,分散
1.4.2 連続確率分布の例
1.5 パラメータ推定法
1.5.1 i.i.d.と尤度
1.5.2 最尤推定
1.5.3 最大事後確率推定
1.6 情報理論
1.6.1 エントロピー
1.6.2 カルバック・ライブラー・ダイバージェンス
1.6.3 ジェンセン・シャノン・ダイバージェンス
1.6.4 自己相互情報量
1.6.5 相互情報量
1.7 この章のまとめ
章末問題

2. 文書および単語の数学的表現
2.1 タイプ,トークン
2.2 nグラム
2.2.1 単語nグラム
2.2.2 文字nグラム
2.3 文書,文のベクトル表現
2.3.1 文書のベクトル表現
2.3.2 文のベクトル表現
2.4 文書に対する前処理とデータスパースネス問題
2.4.1 文書に対する前処理
2.4.2 日本語の前処理
2.4.3 データスパースネス問題
2.5 単語のベクトル表現
2.5.1 単語トークンの文脈ベクトル表現
2.5.2 単語タイプの文脈ベクトル表現
2.6 文書や単語の確率分布による表現
2.7 この章のまとめ
章末問題

3. クラスタリング
3.1 準備
3.2 凝集型クラスタリング
3.3 k-平均法
3.4 混合正規分布によるクラスタリング
3.5 EMアルゴリズム
3.6 クラスタリングにおける問題点や注意点
3.7 この章のまとめ
章末問題

4. 分類
4.1 準備
4.2 ナイーブベイズ分類器
4.2.1 多変数ベルヌーイモデル
4.2.2 多項モデル
4.3 サポートベクトルマシン
4.3.1 マージン最大化
4.3.2 厳密制約下のSVMモデル
4.3.3 緩和制約下のSVMモデル
4.3.4 関数距離
4.3.5 多値分類器への拡張
4.4 カーネル法
4.5 対数線形モデル
4.5.1 素性表現の拡張と対数線形モデルの導入
4.5.2 対数線形モデルの学習
4.6 素性選択
4.6.1 自己相互情報量
4.6.2 情報利得
4.7 この章のまとめ
章末問題

5. 系列ラベリング
5.1 準備
5.2 隠れマルコフモデル
5.2.1 HMMの導入
5.2.2 パラメータ推定
5.2.3 HMMの推論
5.3 通常の分類器の逐次適用
5.4 条件付確率場
5.4.1 条件付確率場の導入
5.4.2 条件付確率場の学習
5.5 チャンキングへの適用の仕方
5.6 この章のまとめ
章末問題

6. 実験の仕方など
6.1 プログラムとデータの入手
6.2 分類問題の実験の仕方
6.2.1 データの分け方と交差検定
6.2.2 多クラスと複数ラベル
6.3 評価指標
6.3.1 分類正解率
6.3.2 精度と再現率
6.3.3 精度と再現率の統合
6.3.4 多クラスデータを用いる場合の実験設定
6.3.5 評価指標の平均
6.3.6 チャンキングの評価指標
6.4 検定
6.5 この章のまとめ
章末問題

付録
A.1 初歩的事項
A.2 logsumexp
A.3 カルーシュ・クーン・タッカー(KKT)条件
A.4 ウェブから入手可能なデータセット

引用・参考文献
章末問題解答
索引


ネットで買う


言語処理のための機械学習入門

[Amazonで詳細を見る]

楽天で「言語処理のための機械学習入門」を調べる。

関連リンク


- Hiroya's homepage
-- http://www.lr.pi.titech.ac.jp/~takamura/index_j.html
- 奥村研究室ホームページ
-- http://www.lr.pi.titech.ac.jp/

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

ブログに「Topsy」の Twitter ボタンを設置しました

ブログに「Topsy」の Twitter ボタンを設置しました。
各ページの右上にある「Retweet」ボタンです。

- Topsy Labs » Topsy Retweet Button for Web Sites
-- http://labs.topsy.com/button/retweet-button/

Twitter にログインした状態でクリックすると、Twitter の発言フォームに RT しやすく記事のタイトルと URL が入力されるので、あとはコメントを付け足すなどして投稿するだけです。

便利。是非ご利用ください。

Topsy のボタンを設置するために必要なコードは「Make Your Buttons Load More Quickly」以下に記述されているコードからコピペしました。そのままでは微妙だったので、いじくって使っています。

最終的には、以下のようなコードを使っています。

<div class="topsy_widget_data" style="float: right; margin-left: 0.75em;"><script type="text/javascript">topsyWidgetPreload({ "url": "http://diary.overlasting.net/<TMPL_VAR name=url>", "title": "<TMPL_VAR name=header>", "theme": "blue", "nick": "overlast" });</script></div>


挙動については実際に、ボタンをクリックして確かめてください。

発言に含まれる URL のまとめページもあるようで、これもなかなか楽しい
です。
- Twitter profile for overlast (Toshinori Satou) - Topsy
-- http://topsy.com/twitter/overlast

人気のある URL と頻繁に共起するユーザには「インフルエンサー」の称号が与えられるのも、ユーザの RT を促進しそうで面白いです。

Topsy は Tweet の検索エンジンですが面白い方向に進化していきますね。次はどんな機能がつくのかな?今後の展開も楽しみです。

関連リンク


- Topsy - A search engine powered by tweets
-- http://topsy.com/

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

ブログの CSS をいじりはじめ

このブログは 2007 年以降、横幅 900px にあわせたデザインをしてから、全然いじくっていなかったのですが、耐えられなくなったのでいじることにしました。


from overlast using May 5, 2010

とりあえず、これがデザインを変更するまえです。どこまで変えられるでしょうか。

今日の夜([2010-05-04-1] )にDisqus のコメントをくっ付けたら、その直後から妙にやる気が出てきたみたいです。

新しい機能を追加したり、不要な機能を削除したりするのを、定期的に行なうことは、デザインを少しずつ洗練するのに大切なのかもしれませんね。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

「Disqus」というコメントシステムを使い始めた

長らくこのブログのコメント機能とトラックバック機能は死んでいました。

今日になってコメント機能が使えないのがもったいない気がしてきたので、自分の力で頑張らなくてもコメントを保存してもらえるサービスを使うことにしました。

どんなサービスを使うか迷いましたが、友人のブログで Disqus を使っていることが多かったので、僕も Disqus を使ってみることにしました。

Disqus は「コメントの投稿受付」、「投稿の承認」、「スパム処理」を受け持ってくれるサービス。以前使っていた、くっつき BBS はコンパクトで設置しやすかったですが、スパムコメントを手で削除する必要があり、めんどくさかったです。その苦労から解放されるのは嬉しいです。

Disqus を使っていると、コメントがスレッド表示になるので、複雑な議論もしやすそうです。

Disqus のアカウントを作ったうえでコメントしてもらえた場合は、そのコメントに対する評価はコメントの投稿者に紐づいて、別のブログの記事にコメントする時の信頼度として反映されるのだそうです。すばらしいですね。

有名なブログツールやサービス向けにはプラグインが用意されています。僕が使っている chalow のようなマイナーなツールを使っている人は「Universal Code」というモードのコードを取得して、それをテンプレートに貼付けて使ます。テスト時にローカルでは表示の確認ができないのが少しツラかったです。
設置後にはこんな感じで表示になります。



このブログのコメント欄は、一応コメントを承認制にしてみました。なるべく速やかに承認するにします。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

iPhone と iPad で使える「MicroSim Adapter」が届いた

先日([2010-04-29-4])に 注文した「MicroSim Adapter」が届きました。

- MicroSim Adapter 3FF mini-UICC Shop
-- http://microsim-shop.com/


封筒を開けたら中に 5 個の「MicroSim Adapter」が小袋に入っていました。他に領収書も手紙も無し。すばらしいです。


from overlast using Panasonic DMC-FX100

実際に、このアダプタを iPhone の SIM のトレイに乗せてみたらピッタリサイズ。これならSIMが中に入らなくて困る事は無さそうです。

気になっていた、「普通サイズの SIM をトリミングして作った自作の Micro SIM が iPad の 3G 通信に使えるかどうか」という疑問は「使える!」と言って問題無さそうです。

海外のブログに T-Mobile の 3G SIM をハサミで切って、その後 iPad で使えることを披露している記事が、いくつかありました。

- iPad on T-Mobile EDGE with DIY Micro SIM
-- http://www.ipadinsider.com/ipad-on-tmobile-edge-diy-micro-sim/


iPhone と iPad 3GS のサポートしている周波数帯が同じなので、多分使えると思うし、ソフトバンクの場合には「smile.world 」という APN を指定すれば良いのかな。 楽しみになってきたなぁ。

でも、SIM カードの抜き差しを頻繁にするのは面倒だし、SIM の金属部分に負担がかかりすぎないか心配だし、咄嗟のときに以下のような感じで電話かけるのは嫌だな。

- iPad Can Make Call


iPad を買ったら、マイク付きイヤホンを使って電話することが多くなりそうだし、SIM を抜き差しするのが煩わしくなって NTT のミニ SIM を買っちゃうかも。

関連エントリ

[2010-05-04-3] ブログの CSS をいじりはじめ
[-] 1
投稿者:としのり  日時:23:59:59 | コメント | トラックバック |