前の日 / 次の日 / 2008-03
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008-03-20 Thu

恵比寿 アトレ 串の坊


串の坊で夕食。野菜を沢山食べました。

もうお腹いっぱい、というころにデザートが出てきました。

ここは、ちょっと落ち着いて食事に来るときに丁度良いすね。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

『Redsun』 学習者の英語を対象としたローマ字語認識ツール


NLP2008で紹介されていたアプリ。Javaによる実装。

- Redsun: ローマ字語認識ツール
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/redsun/index.html

Redsunは,与えられた英文中のローマ字語を自動的に発見するツールです.Redsunの特徴として,綴り誤りを多く含む英文でもローマ字語を精度良く認識できる点が挙げられます(例えば,GnbaruやIppaisなどを認識可能).



~nagata/tools以下に、他のツールもあるのでチラ見しとくと良いかも。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

言語処理学会第14回年次大会(NLP2008) 3日目


言語処理学会の全国大会の3日目に行ってきました。
午前は固有表現抽出のセッション中心。

- NLP2008 program
-- http://nlp2008.anlp.jp/program.html#C2

- 日時: 2008年 3月17日(チュートリアル)
-- 18日〜20日(本会議)
-- 21日(ワークショップ)
- 会場: 東京大学 駒場キャンパス 5号館, 13号館


D4-5 単語正規化による固有表現の同義性判定手法 高橋いづみ, 浅野久子, 松尾義博, 菊井玄一郎 (NTT)


- 同義性判定のために、同義語を分類
-- 表記と、その読みから推測可能なもの
-- その他の知識が判定のために必要
- 前者は同義語の9割を占めると分かったので、前者に着目
- 派生方法は、表記変化、表記の追加、省略の3要素の組み合わせで起こる
- これらの派生過程が起こったのかを3ステップで判定
-- 表記の追加は、ルールでカット
-- 表記変化は音素数が同じ語を、ルールを使い比較
-- 省略は、省略後の語が省略前の語に包含されるときに、SVMで判定
--- SVMの素性は、省略前と省略後の差異を使う
- 正規化によっと、読みまたは、読みの長さが同じものだけ判定したため、既存の研究より精度を向上できた

D4-6 カーネル法を用いた意味的類似度の定義とブートストラップの一般化 小町守 (NAIST), 工藤拓 (Google), 新保仁, 松本裕治 (NAIST)


- ブートストラップと教師無し学習の組み合わせ。
- ブートストラップによるインスタンスの獲得は、生成パターン次第では。意味ドリフトが起きる可能性がある。
- 入り組んでるので論文読め。

B4-7 言語パターンを用いた検索クエリによる単語間の上位・同位関係の抽出 荻原由紀恵, 山下達雄, 前澤敏之 (ヤフー)


- 辞書にあるキーワードAと関連するキーワードBを探す
- 同意、上位、優勢の3パターンをクエリから言語パターンを使い取得する。
- 同意語と上位語は排他的である。
- パターンの重みに手作業で検出した精度を用いる
- Aは辞書ベースの最長マッチによる検出だけど、B<s>はルールベースで後ろを切って取得する。</s>
-- 山下氏が「Bも辞書ベースの最長マッチによる検出」と教えてくれました。
<s># Bは未知のルールの結合を取れないので、一部の未知語が取れないのかも</s>
# 山下氏の補足により無意味な考察に。

A4-8 Nグラム検索エンジン -Google日本語7グラムを使って- 関根聡 (NYU)


- コーパスベース知識工学という分野
-- 近傍コンテキストを使った知識獲得
--- 精度の高いパターンを、大きなサイズのコーパスに適用するとおもしろくなるのでは
- 巨大なサイズのコーパスを使うと、計算量が。。
- n-gram(5から9)に対する検索システムを提案
-- 任意のワイルドカードを含むn-gramの検索
-- ワイルドカードの中身を返す
-- 頻度も返す
-- 1台のPCで動く。メモリは4Gだけ使う。
- 実装
-- 逆インデックスとトライ構造では?
--- 逆インデックスは高頻度単語に弱いの
--- トライだとワイルドカードに弱いの
-- n-gramのワイルドカード位置は限られてるから、トライを全部作ればいい
--- でもサイズが増えすぎるわ
-- そこで工夫
--- サフィックスを縮退、開始位置を任意にする12T->4.7T
--- 更新が不要なので、いらないノードを削る4.7T->2.9T
--- 単一末尾の削除(0.5T)
--- トライを分割したりMMap使ったりして、頑張ってメモリに乗せる
-課題
-- 任意数のワイルドカードへの対応
-- 論理演算子の使用
-- 形態素解析器への依存問題(どんなn-gramができるかは形態素解析器次第)
-- 小頻度パターンの問題(低頻度語も欲しいよ)
-- 幅広いコンテキストも見たくなる(前後も見たい)
-- インデックス作成の簡易化、軽量化
- 質疑
-- 世の中のコンテキストからの知識獲得には9-gramくらい必要だから
-- トライを分割してるので、トライ間の共通構造はまとめられている
-- ワイルドカードをポインタで持つと非効率だからやらない
# 完全に実用的な発表で面白かった。




午後は移動が面倒なので、マイニングセッションにいる。

C5-1 綴り誤りに対してロバストなローマ字語のマイニング手法 永田亮, 掛川淳一 (兵教大), 杉本洋美, 籔田由己子 (教育測定研究所)


- 英語の初学者の書く英文には、英語に混ざるローマ字語(日本語)が多い
- ローマ字語は母音か子音nで終わるし、母音の後には子音が来る
- 綴り誤りは問題だが、とりあえず横においとく
-- そうすると、簡単な正規表現でローマ字語っぽいものを見つけられる
- tri-gramベクトル空間でk-means。
- 英単語のセントロイドは辞書。ローマ字のセントロイドは正規表現。
- 謎の単語および、つづり誤り語を英単語とローマ字語に引っ張る
- 提案手法は精度80%以上で英単語とローマ字語を分類できた。
- ローマ字語を英単語は、英単語に良く似ている
- 英単語をローマ字語に認識する語は、綴り誤りが大半。英語じゃない外国語も間違う
- ツール公開してますよ。
-- http://www.ai.info.mie-u.ac.jp/~nagata/tools/

C5-3 トラブルを見つける De Saeger Stijn (NICT), 鳥澤健太郎 (JAIST)


- 人工物やものの正常な利用や楽しみ方を妨げる要素
- 検索エンジンで見つけられない
-- 例、「餃子 残留農薬」「遊園地 慎重制限」
- 物の利用コンテキストでトラブルにやすい実体の組み合わせを取得
-- 関連抽出タスク
--- 例、<自転車、雨>
-
-- トラブルの下位語の自動的な獲得
--- 構文パターンを使う「Xのようなトラブル」「X以外の障害」
--- 曖昧な表現は取り除く「バッテリーの障害」
--- バッテリーのなんだよ!
-- 係り受け情報
--- 否定形の動詞との係り受け関係
--- 仮定形の言語パターンを利用
--- 「Xで->否定形の動詞」というパターン
--- 助詞「で」の多義を解消するには、肯定形も見る
--- 肯定形の言語パターンを利用
--- 「Xで->肯定形の動詞」を否定的な証拠として考慮
- トラブル表現の抽出のための学習
-- 上記の3つの特徴を全部SVMに突っ込む
- トラブルと組み合わさる実体を探す
-- 言語パターン「実体のトラブル」を新聞コーパスの中で500回以上出現する名詞を実体候補とトラブルを組み合わせてつくり、それらを相互情報量でランキングする。
-- 「実体のトラブル」が見つかったら、トラブルが否定形の動詞と係り受け関係にあるかどうかを確認する。係り受け関係がなければ候補から外す。
- 評価してみると、60%の実体とトラブルのペアは正解だった。

C5-4 経験マイニング:Webテキストからの個人の経験の抽出と分類乾健太郎, 原一夫 (NAIST)


- 経験マイニングはまだまだ十分なんだ
-- 典型的なのは評判を抽出すること
- 意見評判以外にも、経験を抽出したいんだ
- 経験情報を膨大なUGCから抽出するための、意味解析技術を開発し、情報を意味的に索引付けする
- 経験をマイニングするには3つの意味解析が必要
-- トピックと経験主の同定
-- 事態タイプの分類(いいこと、わるいこと、とか)
-- 事実性情報の解析(ほんとにやった、やろうとしてる、とか)
- 上記の3つの解析は別に新しくないよね。できたら応用できて嬉しいでしょ?
- デモ
-- 興味ある、興味なし、欲しい、買った、使った、良く使う、満足、不満
-- とあるサイトの一連の記事に対して、解析を適用し、経験の時系列的な変化を掴むことで、お金につながる
- Synchaを使うといいんじゃない
- 事態表現「名詞+助詞+述語」の評価極性
-- 大半は名詞の極性で決まる
- テンス・アスペクト・モダリティ
- 事実性は「事態の時間情報(+時制) + 話者の態度(+時制)」で表現できる
-- Fanctional CRFで解けそうだ
--- 現状では7割超えは余裕でできていて、いい感じな雰囲気が出てきたよ。
- マーケティングや地域のトラブルの収集に使えそうだ

C5-5 "商品カテゴリ"および"取扱店舗"の統計情報を用いた商品タイトルに含まれるフレーズの重要度判定 前澤敏之, 山下達雄, 荻原由紀恵 (ヤフー)


- 本当は商品の名寄せをしたいんじゃ
- JANやISBNで名寄せすると、幅が狭い。
- なので大量のWebデータを活かせるようにテキストベースの名寄せをする
- 手法概要
-- 商品タイトルを分割してバラバラにする。
-- バラバラにした塊単位の類似度をみれば、名寄せできそうだ
- 実際には商品タイトルには、商品タイトルと関係ない塊が多く含まれる
- 重要度の高いシードと重要度の低いシードがある、と仮定すれば良くないか
- シードフレーズとノイズフレーズの概念、シードの重要度の概念があれば、より良く類似度を算出できるはずだ
- 事前にノイズとシードのリストをつくればいいよね
-- 手法
- 機械学習手法による、ノイズシード比
-- Voted Perceptronを使う
--- 入力、フレーズ
--- 出力、シード or ノイズ
- フレーズとは 「名詞形態素の連続」「記号を含まない(記号を無視した?)形態素の連続」
- 学習素性
-- 入力店舗が同じ場合、共通のノイズが出現する
-- 入力店舗が異なる場合、共通のシードが出現する
-- ということで、ストアとカテゴリのDFを考えてあげれば良さそう
-- フレーズDF比 = ストアDF / カテゴリDF
- シードの判定精度は9割、ノイズは6割程度
-- ノイズリストは少ない。なので、リストからノイズじゃないのを人手で削除すればいいよ
- 学習時のラベルは、シード、中立、ノイズの3値。
- 今後は実際に名寄せする
- ?
-- 学習時に未知のフレーズってどうなるの?とくにシード。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

QuickTime PlayerでWMV形式の動画を再生するために『Flip4Mac』をインストール


今朝、見ようと思った動画が WMV 形式でMacでは見られませんでした。
ちょっと探したら、QuickTime PlayerでWMV形式の動画を再生できるようにするプラグイン『Flip4Mac』が見つかりました。

早速インストールしましたよ。

画像

インストールして、QuickTime Playerに動画ファイルをドラッグするだけで、スムーズに動画を見ることができました。嬉しい。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |