2009-03-02 Mon
NLP2009 言語処理学会第15会年次大会 1日目
メモなので後で書き直す。
** p: 本会議1日目 [日記]: ** 小規模な用語リストを利用した画像読影レポートからの用語抽出 Weakly(semi) Supervised Learningで問題 7つの素性で、7つの意味タグを付与 節分割、係り受け、機能語の削除、 ブートストラップの素性セットと、閾値は自動で求める。 繰り返し回数は人間が決める。 結果は初期seedの質と量に依存する。 事前に作成した素性セットの中から、最適なものを選んでくれる。 性能はSupervisedの方が良いにきまってる。 CRFはコンテキストにタグ付けされたデータが十分にあるなら有効。 でも、今回は辞書しか正解にもっていないためSVMで。 今の分類実験はマルチクラスではなく、2値分類で結果を出している。 |Cではなく、|Pにしたらどうなるかは、今後考える。とのこと。 ** Character Based Thai Named Entity Recognnition 統語ルールで事前にエラーになりそうな系列を接続する前処理をお濃なる。 liner CRFを使った。素性は前処理を行なったあとのchar-ngram。 ようするに、くっ付けなきゃいけない部分を事前にくっつける発想がいい。 Window Siseが3の時、1,2,3word gramを素性にする。 NERモデルで、文字n-gramを使うと8割り越え。 oracleは、97%くらい WSモデルでは、NERモデルと同程度。 このような手法には、技術的に顕著な新規性はないが、 タイ語の固有名詞抽出において解決できなかったシラブルの 抽出などの問題を解決できている、という話なんですが。 ** 生起確率をもちいた人名判定 外国人名対訳の自動編纂をしたところ、 その誤りの大半は人名以外であった。 人名以外を除去できれば、対訳作成の性能は向上する。 人名っぽい表記条件でフィルタリング FirstNameとLastName、それぞれの人名っぽさを判定する。 辞書とサンプルの分布をみて、辞書の方により含まれていると、 よりFirst、Lastっぽい、尤度が高まる 榊原らの外国人名対訳辞書、というものがある。 サンプルはWikipedia。 FirstNameとLastNameの-1クラスは重要(鈴木佐藤は変、とか分かる。 でも、問題がひとつあるので、解決した。*** 区間補正ってのをやる。 両方人名だと+2、片方だと+1、片方が-1、両方が-1=-2 HeiNER辞書ってのがある。 辞書を使う人は人名しか入力しないから問題ないんじゃね? という話だけど、 検索の実用上は良いんだけど、佐藤先生は 辞書を編纂する立場からすると、辞書を名乗るのに精度9割だと微妙。 しかも再現率は重要。語彙が少ないと困るよね。 より正しい辞書をつくるべきだという持論を展開した。 入力されたクエリの判定をして辞書を切り替えられる場合、とか、 表記だけではなく、読みを使って検索する時のことを考えると、 精度の良い辞書を作ることは重要なんですよね。 これスパム判定に使えるかも ** 固有表現の経年変化と頑健な抽出 調査データはIREXコーパスと毎日新聞記事。 使ったデータには年代にバラつきがある。最新コーパスではない。 固有表現のタグづけには、固有表現の曖昧性、という問題がある。 組織名と地名。国名は全部地名。 新宿西交番は、自首する先だったので、組織名にした。 あいまいさは抽出したデータの1割。 時間、割合、金額表現は、圧倒的に少ない。 固有表現の種類数は年々増加している。 出現傾向が変わっても頑健な抽出ができる学習器。 タグ無しコーパスの低頻度語の周辺語ベクトルを使い、 良く似た分布の別の高頻度葉を選び、素性を抱き合わせる。 タグ無しデータっつうか。 ビル名辞書中からの組織名抽出とかできるな。 ** スプログの調査と スプログの調査。 スプログは閲覧可能、削除済みのブログ。 全ブログのおそらく40%。ぐええ。 アフィリエイト型。特にコンテンツが無い。 ワードサラダ型。自動生成。いろんな情報源から情報を収集。最近は数の増加が伸びていない。 引用型。ニュースサイトからそのままペースト。 工夫した引用型。引用記事のテンプレートにタイトルを挿入する。 引用型はスプログの半数。全体の20%。 では引用ブログを見つけることを目的にしちゃうよ。 類似した記事の定義。 2つの記事の文が30%似てたら類似。 かつ、内容語が80%一致だったら。 全ての分の組み合わせに類似度を計算する。 O(n^2)でつらい。 転置indexを使ってみよう。 単語^t文、文、文。 これを使えば、文テーブルを埋めることができる。 けど、文を単語の頻度の昇順で並べる、 類似度の閾値を用いた枝狩りをする。 上位n語を削ると、DFの高い語は削れる(上位0.1%削るだけでずいぶん良い 実験は、ある時間の投稿された記事集合、 特定のクエリを含む記事集合の2つに適用した。 ワードサラダはエントロピーで判定できるけど メールはほぼ同じ文面 課題は、ストリーム処理。 まじめな引用ももらさない。 差分の文の意見性や、同じ人間の書く他の記事を見れば良いんじゃね? 他のサイトへの誘導 郵送したいサイトのセお げとまえ ** 構文木の再起構造 文圧縮の操作として、上位の要素をより下位の要素によって置換することで 圧縮できる。これがあたらしい。 文削除による手法も併用 圧縮分コーパスって言うのがある。 e置換するノード以下がすべて除去されるか、という素性 を加えた。 文圧縮の多様性を考慮。 圧縮文を複数作成し、それらをランキングする。 提案手法は除去すべき無い部分木の誤り除去率が極めて低い。 文法性を極めて良く残している。 削除の有効性を知る、うえではデータ量を増やした方が良い。 再起構造が出現する言語には使用できる。 英語以外の言語には適用できない。 ** 施設は位置問題による文書要約のモデル化 AEDがある。AEDは高価。 2つのAEDを町内のどこに配置すると効果的だろうか。 これが施設配置問題。最適化問題の1つ。 同じトピックに対する文書のクラスタを集める。 文書クラスタからどのように文を選択するベキか。 ここで、文から文へのエッジを引く。 エッジは有向きで、子孫ノードは、 祖先ノードがあることで推論できる、と考える。 このような時に、子孫ノードは祖先ノードに割り当てる、ことができる とすると、これはまさに施設配置問題である。 目的関数、max 各割当の良さeij、実際割り当てたかzij 制約 選択したかどうか、割当先が選択されていることを保証 制限長、作成する要約文の長さ制約 文はかならずどこかに割り当てられる、ことを保証する 選択文は自分に割り当てる 係数 各文の長さ;た空くgiven 制限長:given 文間係数: 文から文への推論関係が成り立っていれば、良い割当。 各文の重要さは異なるので、文間係数として文の重要さを表す利得が必要。 重要さ 文の位置の逆数、文と文書クラスタとの類似度の、重み付き和 あとは整数計画問題のソルバーに投げるだけ。 うひー。 文クラスタリングが類似文を選ぶのに対し、提案は選択文が含意する文を選ぶ グループ数の決定が不要である グループ化の選択も逐次ではなく同時におこなう。 おお?これ、他の問題にも使えるんじゃね? 利得は必要である。 非対称な文間係数は必要である。 peer65よりも良いスコアで要約している。 提案モデルの拡張 推論関係のスコアにstate-of the-artを使いたい。 文官のカーネル関数を用いたい。 要約の高速化 2文が1文を推論することもできる 資料ではβをしたけど、とりやめた 部分緩和 誤りを直したページは、たかむら/nlp2009rev.pdf 文間関係の考慮に、接続詞を使うことも考えるべきでは。 PageRankを使った要約と似てない? PageRankがつながっている文書は重要、という考え方をしているのではなく エンテイルメント、って 施設配置問題はNP完全なので、近似手法考えることは有用。 -- ** 不要文書除去 単語頻度と文書内で最初に出現した位置の利用、より多く前で出ると重要 意味的つながりを考慮した要約作成をする際に、 コスト面や新語の対応についての問題をPLSIで解決する。 より多い文と関連性のある文は重要。 HITS 単語頻度からコサイン類似度を求め、 グラフに対してHITS。 前向きグラフがHub、後ろ向きがAuth タイトル分とのコサイン類似度ベースグラフPageRank タイトル文と類似度が高い文を接続していく 要約作成数は6文くらいでサチる。 これらを集約 116に電話。 ** 1日目 形態素解析辞書とコーパスがある 辞書に未登録の単語をコーパスから抽出する 活用語は語幹を抽出。 固有名詞は名詞として抽出。 未知語文字列の抽出 効率 計算コストの削減 網羅性 未知語かどうかの検証 力任せは、網羅性は高いが非効率 形態素解析器を利用、効率は良いが、解析エラーの影響でとりこぼす。(既知の単語と未知語の組み合わせになってしまう 前弁別的文字列と後弁別的文字列にはさまれたもの コーパスに登録されている単語をもとに、さがす。 Online passive aggressive algorithm コーパス中で頻出する候補を探す。 候補のn-gramも素性にいれる。 ** 新語辞典を作成したい。 活用語尾を観察して十分観察されたら、辞書に加える 活用語尾の定義はあいまい。 最長後続ひらがな列を活用する。 各品詞、各活用型の特徴ひらがな(あまり見られない)列の認定 ** p: 語彙獲得のための テキストから未知語を獲得する。 基本語彙辞書と、自動獲得辞書を用意する。 うざい =>ウ ざい 解決策:異表記ゆれ情報の活用 未知語処理 - 辞書に基づくヒューリスティクス かたかな連続を1候補に/ ひらがな、漢字は1文字ごとに列挙 でも、長いひらがな文字列は解析できない ようつべ、とか でも、こういうのは過分割を解決できない。 かぐや姫 → 家具や姫 --- 手法 システマティックな誤りを含むN-Gram 仮説 形態素の異表記は同じように振る舞う。 表記揺れの利用:定式化 前向きbi-gramのチェック ** p: 文字誤り 文字単位の誤り 人手の入力や、文字認識に含まれる。 訂正したい! 分野適用能力 未知語対応能力 全誤り種類を扱う能力 置換、削除、挿入、融合、分類 いままでもいろんな研究がある。 けど、文字数の多い日本語に向いてなかった。 -- 確率的な文字誤り訂正システムの構築 分野適用が可能である ノイジーチャンネル(雑音のある通信路)モデルを使う。 正しい文Wと、誤りを含む文Oの関係をモデル化 言語モデル確率P 単語単位のtrigram 未知語モデル 辞書外の単語候補の尤もらしさを判断する 未知語、ポワソン モデルは、数量、かたかな、ローマ字など4つに分けた。 混同モデルP(O|W) 文字混同モデル 文字誤り傾向は入力方法に依存する オCR(図形的)と人手(同音異表記)は別 並列コーパスから学習可能だが大きいコーパスが必要なのだ。 あので ODR誤り訂正システム 図形的特徴 拡張外郭方向寄与度を用いる 誤りの種類は5種類に分けられる、、、これをLUIGIでやる 実装は重み付き有限状態トランスデューザー シャグマー




