前の日 / 次の日 / 2008-08
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

2008-08-21 Thu

隠語対応の犯罪検知には、人手による辞書作成が現実的

総務省が、またまた犯罪検知に向けた取り組みを開始するようです。

- 犯罪検知ソフト開発へ ネット監視強化、「隠語」にも対応 総務省(産経新聞) - Yahoo!ニュース
-- http://headlines.yahoo.co.jp/hl?a=20080821-00000098-san-ind

サイト運営企業はネット上の有害情報対策を強化しているものの、監視人員の確保が困難な上、通常の検知ソフトでは、隠語のような特殊言語への対応は困難という。開発は平成21年度から3年程度かけて取り組み、総事業費は十数億円規模を想定している。


いろいろ考えたのですが、十数億円かけてソフトやシステムを作っても、
そのソフトが本当に考えるべき問題を解決しなかった場合には、
ほんの1年くらいで、ゴミソフトになってしまうのではないかと思います。

考えるべきことは「いかにしてイタチごっこを軽減するか」だと思います。

どうせ、守る側と攻める側のイタチごっこに終わりはないのです。
何故なら隠語は無限に終わり続けるし、バリエーションも増え続けます。

現実的な解を考えると、やはりWikipediaのように共同作業で
隠語データベースを作成できるような仕組みのうえで、
大量の人が辞書を整備するのが良いだろうと思います。

探してみると、そういう試みをしている人は、すでにいました。

- 隠語データベースβ | トップ
-- http://saburo.biz/ingo/
隠語をデータベース化して有志たちによってこの情報を精査できたらいいのではないか


まだまだ件数が集まっていませんし、登録エントリを審査にかけるあたりの、
コストの高さが非常に心配ですが、数年後には有望な辞書になっているかも。

ところで、シンナーには「純トロ」と呼ばれるものがあることを知り、
検索してみたのですが、胸が痛くなるような結果の山です。

- シンナー 純トロ - Google 検索
-- http://www.google.co.jp/search?q=%E3%82%B7%E3%83%B3%E3%83%8A%E3%83%BC%E3%80%80%E7%B4%94%E3%83%88%E3%83%AD+&lr=lang_ja&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:ja:official&client=firefox-a

胸が痛くなる検索結果が減るような取り組みは、今後自分でも積極的にやるべきだと思いました。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |

指定形容詞係り先検索の検索対象が狭すぎな件について、簡単に考えてみる

Yahoo! JAPAN が日本語係り受け解析のAPIを公開しました。

- Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析
-- http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html

日本語文の係り受け関係を解析する機能を提供します。


と、同時に「指定形容詞係り先検索」APIという聞き慣れない名前のAPIも公開されました。

- Yahoo!デベロッパーネットワーク - テキスト解析 - 指定形容詞係り先検索
-- http://developer.yahoo.co.jp/jlp/DAServiceSearch/V1/search.html
1 : 「うれしい」が係る単語を返します。
2 : 「おもしろい」が係る単語を返します。
3 : 「すごい」が係る単語を返します。
4 : 「たのしい」が係る単語を返します。
5 : 「かっこいい」が係る単語を返します。
6 : 「かわいい」が係る単語を返します。
7 : 「きれい」が係る単語を返します。
8 : 「おいしい」が係る単語を返します。


え?これだけ?

うーん。なんでこんなに取得できる条件が絞られているんだろう。

考えてみますか。

APIから得られる結果は?



APIの返す結果が『「うれしい」に係る』じゃないところがポイントですね。

おもに連体形の形容詞(名詞などの体言にかかる)が係る単語がとれそうです。
「単語を返す」と言っているのは、形容詞の係り先にある形態素を返すので、
名詞なのか、未知語なのか、固有名詞なのか、
よく分からないということなのではないかなぁ、と思います。

では、ちょっと結果を見てみます。

- 指定形容詞係り先検索 : うれしいの係る単語
-- http://jlp.yahooapis.jp/DAServiceSearch/V1/search?appid=YahooDemo&mode=1
<Word>
<Surface>人気ブログランキング</Surface>
<Frequency>8</Frequency>
</Word>


Surfaceは表層、つまり見たままの文字列のことではないでしょうか。
Frequencyは頻度、つまり何かの頻度を表しているのではないでしょうか。

どんなデータから、表層と頻度を取得しているのか



頻度が出ていることから、何らかのコーパスを解析したことが分かります。

ふと気がつきましたが、結果の中に以下のような結果が混ざっています。

<Word>
<Surface>金メダル</Surface>
<Frequency>24</Frequency>
</Word>

中略

<Word>
<Surface>ソフトボール</Surface>
<Frequency>9</Frequency>
</Word>


実は、この検索をした日の前日に、ソフトボールの日本代表が、
北京オリンピックで金メダルを取ったのです。

また、この一つ前の引用のように「人気ブログランキング」という単語が頻出していました。

取得できる結果からは、なんとなくブログ記事を使っている気がしますね。

もしかして、昨日以前のブログ検索結果から上位n件を取得しているのかな
ということが想像できます。

APIが結果として返してくれそうなデータを考える



APIのことと、APIで使っていそうなデータのことが、ちょっとわかったので
こんどは、結果として得られそうな「形容詞と単語の組み合わせ」と、
「組み合わせが得られそうな文」について考えてみようと思います。

形容詞「きれい」から何を得られるか

「きれい」という形容詞が係る、名詞「花」という組み合わせを考えます。
そうすると、「きれいな花」や「きれいだと思ったのは花」などの
文から、形容詞と単語の組み合わせが得られそうです。

ということは、別の形容詞についても何かを考えられますね。

APIの動きを想像して、APIの条件に無い形容詞の結果を考えてみる。



諸々考えたので、指定形容詞係り先検索と同等の結果を得る
アルゴリズムを考えてみます。

指定形容詞係り先検索っぽいアルゴリズム

1、クエリとして形容詞を与える
2、与えられた形容詞をクエリとして、ブログ検索する。その際に、形容詞は連体形に変換し、検索結果は日付順でランキングし取得する。
3、検索結果のタイトルとスニペットを取得。
4、スニペットを文に分割する。
5、タイトルとスニペットを正規化
6、与えられた形容詞を含むタイトルとスニペット文を文として取得。
7、取得した文を係り受け解析
8、構文情報から、与えられた形容詞が係っている形態素を取得。とりあえず、形容詞が係る、一番近い名詞、固有名詞、未知語を取得する。
9、形態素の頻度情報を得る
10、頻度が4件以上の単語のみを取得する
11、ストップワードリストによるフィルタリング

素朴なアルゴリズムは、こんな感じなのではないでしょうか。

アルゴリズムどおりに手を軽く動かしてみる。



アルゴリズムを想定したので、このアルゴリズムで形容詞を処理してみます。
と言っても、まずは自分の手を動かすことにします。

処理する形容詞を「嫌い」に設定してみます。
何故かというと、指定形容詞係り先検索にはネガティブな形容詞が含まれていなかったからです。

ブログ検索の結果を手作業で処理してみる。

以下の検索結果から、想定したアルゴリズムにマッチする単語を上から30個くらい取得してみます。

- 「嫌いな」の検索結果 - Yahoo!ブログ検索
-- http://blog-search.yahoo.co.jp/search?p=%E5%AB%8C%E3%81%84%E3%81%AA&ei=UTF-8

すると、試した瞬間には、以下のようになりました。


自分
季節
モノ
タイプ
ところ
子供

選手
タイプ
タイプ
もの
上司

中学校教師

選手

上司
雨降り
人間


日常
食べ物
キャラ
サウンド

もの



具体的な名詞をあえて省いているのですが、
人や上司やタイプ、はたまた企業や物、そして自分なんてものが
「嫌い」なものとして言及されています。

 
少し手を動かしてみて、以下のような処理くらいはした方が良さそうだと分かりました。

- 連体形の形容詞が最初に係るのは、おもに一般名詞。おもしろくない。もう少し後ろまで取得したほうが良い。
- 言及されている対象が何かを考えるために、形容詞の係先の名詞と同格になっている名詞を取得する。

でも、なんとなく分かった。



「指定形容詞係り先検索の検索対象が狭すぎな件について、簡単に考える」が目的だったので、簡単に考えてみます。

簡単に考えると、指定できる形容詞が自由だと、
おそらくすごく便利だと思います。

現状でも、上手に検索結果を利用することで、
急激にみんなが言及している形容詞のランキングを作れますよね。

このランキングを様々な形容詞に対して適用してみると、
わりと面白いことになりそうだと分かります。

たとえば、「うれしい」の検索結果を見てみると、
「キャラメルコーン」のような固有名詞も含まれています。

ということは、最も今嬉しいワードが分かりますし、
最も今嫌われているワードも分かるわけです。

嫌い、悪い、臭いなど極めてネガティブな形容詞の係先を
Yahoo自らが明らかにする必要はなさそうですよね。

しかもネガティブな情報を発信しているユーザが特定できてしまうときに、
Yahoo側には、いろいろ面倒なことが起こりそうな気もします。

ここら辺が、指定形容詞係り先検索の検索対象が狭すぎる原因じゃないかと。

まとめ


指定形容詞係り先検索は研究用途に使うには、ちょっと物足りません。

でも、このような結果を出すしか無かった大人の事情がありそうなことも、
ちょっと試したら、微妙に分からなくもないような気がしてきました。

とはいえ、非常に有用な資源がぶら下がっている状態だと思うので、
研究用途に限り形容詞を網羅的に処理した結果を提供する枠組みを
用意していただけると、すごく嬉しいなぁと、感じました。

疲れたのでおしまい。

投稿者:としのり  日時:23:59:59 | コメント | トラックバック |