前の日 / 次の日 / 2009-03
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2009-03-02 Mon

NLP2009 言語処理学会第15会年次大会 1日目

Delicious
[日記]

メモなので後で書き直す。

** p: 本会議1日目 [日記]:
** 小規模な用語リストを利用した画像読影レポートからの用語抽出
Weakly(semi) Supervised Learningで問題
7つの素性で、7つの意味タグを付与
節分割、係り受け、機能語の削除、
ブートストラップの素性セットと、閾値は自動で求める。
繰り返し回数は人間が決める。

結果は初期seedの質と量に依存する。
事前に作成した素性セットの中から、最適なものを選んでくれる。

性能はSupervisedの方が良いにきまってる。
CRFはコンテキストにタグ付けされたデータが十分にあるなら有効。
でも、今回は辞書しか正解にもっていないためSVMで。
今の分類実験はマルチクラスではなく、2値分類で結果を出している。
|Cではなく、|Pにしたらどうなるかは、今後考える。とのこと。

** Character Based Thai Named Entity Recognnition
統語ルールで事前にエラーになりそうな系列を接続する前処理をお濃なる。
liner CRFを使った。素性は前処理を行なったあとのchar-ngram。
ようするに、くっ付けなきゃいけない部分を事前にくっつける発想がいい。
Window Siseが3の時、1,2,3word gramを素性にする。

NERモデルで、文字n-gramを使うと8割り越え。
oracleは、97%くらい
WSモデルでは、NERモデルと同程度。

このような手法には、技術的に顕著な新規性はないが、
タイ語の固有名詞抽出において解決できなかったシラブルの
抽出などの問題を解決できている、という話なんですが。

** 生起確率をもちいた人名判定
外国人名対訳の自動編纂をしたところ、
その誤りの大半は人名以外であった。
人名以外を除去できれば、対訳作成の性能は向上する。
人名っぽい表記条件でフィルタリング
FirstNameとLastName、それぞれの人名っぽさを判定する。
 辞書とサンプルの分布をみて、辞書の方により含まれていると、
 よりFirst、Lastっぽい、尤度が高まる

榊原らの外国人名対訳辞書、というものがある。
サンプルはWikipedia。

FirstNameとLastNameの-1クラスは重要(鈴木佐藤は変、とか分かる。

でも、問題がひとつあるので、解決した。***
区間補正ってのをやる。

両方人名だと+2、片方だと+1、片方が-1、両方が-1=-2

HeiNER辞書ってのがある。

辞書を使う人は人名しか入力しないから問題ないんじゃね?
という話だけど、

検索の実用上は良いんだけど、佐藤先生は
辞書を編纂する立場からすると、辞書を名乗るのに精度9割だと微妙。
しかも再現率は重要。語彙が少ないと困るよね。
より正しい辞書をつくるべきだという持論を展開した。

入力されたクエリの判定をして辞書を切り替えられる場合、とか、
表記だけではなく、読みを使って検索する時のことを考えると、
精度の良い辞書を作ることは重要なんですよね。

これスパム判定に使えるかも

** 固有表現の経年変化と頑健な抽出
調査データはIREXコーパスと毎日新聞記事。
使ったデータには年代にバラつきがある。最新コーパスではない。

固有表現のタグづけには、固有表現の曖昧性、という問題がある。
組織名と地名。国名は全部地名。
新宿西交番は、自首する先だったので、組織名にした。
あいまいさは抽出したデータの1割。

時間、割合、金額表現は、圧倒的に少ない。

固有表現の種類数は年々増加している。

出現傾向が変わっても頑健な抽出ができる学習器。
タグ無しコーパスの低頻度語の周辺語ベクトルを使い、
良く似た分布の別の高頻度葉を選び、素性を抱き合わせる。

タグ無しデータっつうか。

ビル名辞書中からの組織名抽出とかできるな。

** スプログの調査と
スプログの調査。
スプログは閲覧可能、削除済みのブログ。
全ブログのおそらく40%。ぐええ。

アフィリエイト型。特にコンテンツが無い。
ワードサラダ型。自動生成。いろんな情報源から情報を収集。最近は数の増加が伸びていない。
引用型。ニュースサイトからそのままペースト。
工夫した引用型。引用記事のテンプレートにタイトルを挿入する。

引用型はスプログの半数。全体の20%。

では引用ブログを見つけることを目的にしちゃうよ。

類似した記事の定義。
2つの記事の文が30%似てたら類似。
かつ、内容語が80%一致だったら。

全ての分の組み合わせに類似度を計算する。
O(n^2)でつらい。

転置indexを使ってみよう。
単語^t文、文、文。
これを使えば、文テーブルを埋めることができる。

けど、文を単語の頻度の昇順で並べる、
類似度の閾値を用いた枝狩りをする。
上位n語を削ると、DFの高い語は削れる(上位0.1%削るだけでずいぶん良い

実験は、ある時間の投稿された記事集合、
特定のクエリを含む記事集合の2つに適用した。


ワードサラダはエントロピーで判定できるけど
メールはほぼ同じ文面

課題は、ストリーム処理。

まじめな引用ももらさない。
差分の文の意見性や、同じ人間の書く他の記事を見れば良いんじゃね?

他のサイトへの誘導
郵送したいサイトのセお
げとまえ

** 構文木の再起構造
文圧縮の操作として、上位の要素をより下位の要素によって置換することで
圧縮できる。これがあたらしい。
文削除による手法も併用


圧縮分コーパスって言うのがある。

e置換するノード以下がすべて除去されるか、という素性
を加えた。

文圧縮の多様性を考慮。
圧縮文を複数作成し、それらをランキングする。

提案手法は除去すべき無い部分木の誤り除去率が極めて低い。
文法性を極めて良く残している。

削除の有効性を知る、うえではデータ量を増やした方が良い。

再起構造が出現する言語には使用できる。
英語以外の言語には適用できない。

** 施設は位置問題による文書要約のモデル化
AEDがある。AEDは高価。
2つのAEDを町内のどこに配置すると効果的だろうか。
これが施設配置問題。最適化問題の1つ。
同じトピックに対する文書のクラスタを集める。
文書クラスタからどのように文を選択するベキか。

ここで、文から文へのエッジを引く。
エッジは有向きで、子孫ノードは、
祖先ノードがあることで推論できる、と考える。

このような時に、子孫ノードは祖先ノードに割り当てる、ことができる
とすると、これはまさに施設配置問題である。

目的関数、max 各割当の良さeij、実際割り当てたかzij
制約
 選択したかどうか、割当先が選択されていることを保証
 制限長、作成する要約文の長さ制約
 文はかならずどこかに割り当てられる、ことを保証する
 選択文は自分に割り当てる
係数
 各文の長さ;た空くgiven
 制限長:given
 文間係数:

  文から文への推論関係が成り立っていれば、良い割当。

各文の重要さは異なるので、文間係数として文の重要さを表す利得が必要。

重要さ
 文の位置の逆数、文と文書クラスタとの類似度の、重み付き和

あとは整数計画問題のソルバーに投げるだけ。
うひー。

文クラスタリングが類似文を選ぶのに対し、提案は選択文が含意する文を選ぶ
グループ数の決定が不要である
グループ化の選択も逐次ではなく同時におこなう。

おお?これ、他の問題にも使えるんじゃね?

利得は必要である。
非対称な文間係数は必要である。
peer65よりも良いスコアで要約している。

提案モデルの拡張
推論関係のスコアにstate-of the-artを使いたい。
文官のカーネル関数を用いたい。
要約の高速化
2文が1文を推論することもできる

資料ではβをしたけど、とりやめた
部分緩和

誤りを直したページは、たかむら/nlp2009rev.pdf

文間関係の考慮に、接続詞を使うことも考えるべきでは。

PageRankを使った要約と似てない?
PageRankがつながっている文書は重要、という考え方をしているのではなく

エンテイルメント、って

施設配置問題はNP完全なので、近似手法考えることは有用。

--

** 不要文書除去

単語頻度と文書内で最初に出現した位置の利用、より多く前で出ると重要

意味的つながりを考慮した要約作成をする際に、
コスト面や新語の対応についての問題をPLSIで解決する。

より多い文と関連性のある文は重要。
HITS
単語頻度からコサイン類似度を求め、
グラフに対してHITS。
前向きグラフがHub、後ろ向きがAuth

タイトル分とのコサイン類似度ベースグラフPageRank
タイトル文と類似度が高い文を接続していく

要約作成数は6文くらいでサチる。


これらを集約


116に電話。

** 1日目

形態素解析辞書とコーパスがある
辞書に未登録の単語をコーパスから抽出する
活用語は語幹を抽出。
固有名詞は名詞として抽出。

未知語文字列の抽出
 効率
  計算コストの削減
 網羅性
未知語かどうかの検証

力任せは、網羅性は高いが非効率
形態素解析器を利用、効率は良いが、解析エラーの影響でとりこぼす。(既知の単語と未知語の組み合わせになってしまう

前弁別的文字列と後弁別的文字列にはさまれたもの
コーパスに登録されている単語をもとに、さがす。

Online passive aggressive algorithm

コーパス中で頻出する候補を探す。
候補のn-gramも素性にいれる。

** 
新語辞典を作成したい。


活用語尾を観察して十分観察されたら、辞書に加える
活用語尾の定義はあいまい。
最長後続ひらがな列を活用する。
各品詞、各活用型の特徴ひらがな(あまり見られない)列の認定

** p: 語彙獲得のための
テキストから未知語を獲得する。
基本語彙辞書と、自動獲得辞書を用意する。

うざい =>ウ ざい

解決策:異表記ゆれ情報の活用

未知語処理
- 辞書に基づくヒューリスティクス
 かたかな連続を1候補に/
 ひらがな、漢字は1文字ごとに列挙

でも、長いひらがな文字列は解析できない
ようつべ、とか

でも、こういうのは過分割を解決できない。

かぐや姫 → 家具や姫

---

手法
システマティックな誤りを含むN-Gram
仮説
形態素の異表記は同じように振る舞う。

表記揺れの利用:定式化
前向きbi-gramのチェック

** p: 文字誤り
文字単位の誤り
人手の入力や、文字認識に含まれる。

訂正したい!

分野適用能力
 
 	未知語対応能力
 
全誤り種類を扱う能力
 	 置換、削除、挿入、融合、分類

いままでもいろんな研究がある。
けど、文字数の多い日本語に向いてなかった。

--
確率的な文字誤り訂正システムの構築
分野適用が可能である
 ノイジーチャンネル(雑音のある通信路)モデルを使う。
  正しい文Wと、誤りを含む文Oの関係をモデル化

言語モデル確率P
 単語単位のtrigram
未知語モデル
 辞書外の単語候補の尤もらしさを判断する
  未知語、ポワソン

モデルは、数量、かたかな、ローマ字など4つに分けた。

混同モデルP(O|W)

文字混同モデル
 文字誤り傾向は入力方法に依存する
  オCR(図形的)と人手(同音異表記)は別

並列コーパスから学習可能だが大きいコーパスが必要なのだ。

あので


ODR誤り訂正システム

図形的特徴
拡張外郭方向寄与度を用いる

誤りの種類は5種類に分けられる、、、これをLUIGIでやる

実装は重み付き有限状態トランスデューザー




シャグマー



投稿者:としのり  日時:23:59:59 | コメント | トラックバック |