2008-10-18 Sat

IIR (Introduction to Information Retrieval) 勉強会 #15

今日は IIR (Introduction to Information Retrieval) 勉強会の15回目。

画像

15回目だけど、今日は13章の続きと、第14章。

続きを読む

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2008-09-28 Sun

IIR (Introduction to Information Retrieval) 勉強会 #14

今日は IIR (Introduction to Information Retrieval) 勉強会の14回目。
14回目だけど、今日は13章。
今日は最初に12章の復習があって、13章の輪読。

今回の担当は僕でした。うひー。二日酔いでしたが、なんとか大丈夫でした。

- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
Introduction to Information Retrieval

[Amazonで詳細を見る]


今までの復習資料(by naoyaさん)は以下です。
# いつもいつも良い感じの資料です。是非ご一読を!

http://bloghackers.net/~naoya/iir/ppt/

実は13章は大変長いのです。

内容は文書分類について。

第13、14、15章と文書分類の話をする理由や応用先に言及し、その後ナイーブベイズの定式化の話をして、素性選択の話をします。
最後にさまざまな文書分類アルゴリズムの比較をするのですが、2時間でたどり着きません。

ということで、13.6節の分類アルゴリズムの比較は次回に持ち越し!

終わったあとに、id:murayamから某検索エンジンの裏側に関する発表がありました。

おつかれさまでした!

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2008-09-11 Thu

日本語全文検索エンジンFreya

FTSearchの原田さんはODINの開発者だったんですね。
# 知る順番が逆すぎる。

Freyaはメンテされていないけど、ODINの後継扱いみたいです。

- 日本語全文検索エンジン"Freya"
-- http://www.ingrid.org/ja/project/freya/

いまも公開されており、indexingにPerlを使っているので、スクリプト言語ユーザにも分かりやすそうですね。

【関連リンク】
- 原田昌紀 (はらだまさのり)
-- http://www.ingrid.org/~harada/index-ja.html
- 理系ナビ:理系のためのインターン・就職・転職情報サイト
-- http://www.rikeinavi.com/09/mg/r06winter2/se/google/index.php

- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
Introduction to Information Retrieval

[Amazonで詳細を見る]

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2008-09-11 Thu

日本語全文検索エンジン FTSearch

IIR勉強会とかに出ているので、とりあえず検索エンジンは見かけたらメモる。

- Interface記事サポートページ
-- http://www.ingrid.org/~harada/interface/index.html

FTSearchは本記事執筆のために開発した,極めてシンプルな日本語全文検索エ ンジンです.形態素解析と転置索引を使ったオーソドックスなアルゴリズムを 採用しています.


開発者の原田さんはGoogle Chromeの開発チームでエンジニアをされているそうです。
すばらしいですね!

【関連リンク】
- 原田昌紀 (はらだまさのり)
-- http://www.ingrid.org/~harada/index-ja.html
- 理系ナビ:理系のためのインターン・就職・転職情報サイト
-- http://www.rikeinavi.com/09/mg/r06winter2/se/google/index.php

- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
Introduction to Information Retrieval

[Amazonで詳細を見る]

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

2008-09-07 Sun

IIR (Introduction to Information Retrieval) 勉強会 #13

今日は IIR (Introduction to Information Retrieval) 勉強会の13回目。
13回目だけど、今日は12章。
今日は最初に11章の復習があって、12章の輪読。

- Introduction to Information Retrieval
-- http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
Introduction to Information Retrieval

[Amazonで詳細を見る]


今までの復習資料(by naoyaさん)は以下です。
# いつもいつも良い感じの資料です。是非ご一読を!

http://bloghackers.net/~naoya/iir/ppt/

最近は込み入った内容なので、聞きながらメモできる感じじゃないです。

でも、メモれる間はメモったのが以下。

** #11の復習
確率モデルの基礎。
VSMとは違い統計的なアプローチ。

検索モデルの整頓。
- モデルは検索タスクに適したものを選択する
- Booleanモデルは理論がきちんとしている。
-- 検索質問を論理式で表現し検索
-- 質問中の語が文書に出現することを要求
- ベクトル空間もでる
-- 適合度により文書の順序付けができる
-- 適合フィードバックを適用可能
-- ブーリアンモデルの論理演算の利点は失われる
-- 順位に対する理論的な裏付けが失われやすい
- 確率モデル
-- 検索質問に適合するかを確率的に決定する。

PRP - Probabillity ranking principle
クエリqに対する文書dの適合度を表す確率変数を用意する
確率変数により適合度を決定する。

ということで、確率的な基準をどのように定義するかが、
またどのように仮定するかが問題である。

BIM - Binary Independece Model
クエリ、文書を単語出現ベクトルで表現できる。
単語間の独立性を仮定する

BMIとことなる仮定のモデルの代表にBM25がある。

結局のところ、確率変数の値で文書をソートすることが、
文書のスコアリングとして理論的な正当性をあたえることを期待している。

オッズを使い情報量を削減する
単語の独立性を仮定し、出現確率の乗数を用いる。

** #12
音声認識112ページが参考になるよ。


終わった後は、夏休みの宿題発表のコーナーがありました。

みんなすごい。

ただ、内容を公開できないものが多すぎる(笑)。
以下公開可能なもの。

- S原さんのデモ
-- ナイーブベイズによるテキスト分類体験アプリ
--- http://d.hatena.ne.jp/sleepy_yoshi/20080907/p1

僕の宿題は実装ができているのですが、ちょっと結果が微妙すぎるので、次回公開を目指したいと思います。はい。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |