livedoorのスパムフィルター「スパムちゃんぷるー」
livedoorのスパムフィルター「スパムちゃんぷるー」に関する記事を沢山見かけました。ので、改めて調べてみます。
「スパムちゃんぷるー」は、YAPC::Asia 2008 で発表がありました。この発表は実践的ですばらしいです。
- ライブドア内のサービス共通スパムフィルタ「スパムちゃんぷるー」: YAPC::Asia 2008 - May 15-16th in Tokyo, JAPAN
-- http://conferences.yapcasia.org/ya2008/talk/1184
ライブドアのサービス間で、スパムコメント/TBの情報を一元管理するため、gearman によるプラグイン形式のスパムフィルタ「スパムちゃんぷるー」というのを作りました。この実装、運用についてお話します。
なるー、Gearmanでスパムフィルタリングタリングするシステムか。
Gearmanのプラグインとして、どんなものが用意されているのかを見てみると。。
- livedoor Developers Blog:YAPC::Asia 2008 で発表してきました - livedoor Blog(ブログ)
-- http://blog.livedoor.jp/techblog/archives/64943619.html
ライブドアブログ宛のコメント/TBについては、現在デフォルトで10種類のプラグインが判定に参加する設定になっています。
なるほど。
そのデフォルトプラグインの名前をスクリーンショットから読み取ると、以下のような名前のようです。
- LinkScore
- MassSubmission::Blog
- MassSubmission::CommentSamples
- NaiveBayes
- SimilarTexts(似たようなテキストの大量投稿を検出する)
- SimilarTexts2
- SimilarTexts3
- ReportedSpammers(以前スパムと判定されたデータと送信元IPなどの共通点があるかどうかを基にスパム判定)
- URLBlacklist
- XIPBlacklist
- MassSubmission::Blog
- MassSubmission::CommentSamples
- NaiveBayes
- SimilarTexts(似たようなテキストの大量投稿を検出する)
- SimilarTexts2
- SimilarTexts3
- ReportedSpammers(以前スパムと判定されたデータと送信元IPなどの共通点があるかどうかを基にスパム判定)
- URLBlacklist
- XIPBlacklist
名前を見ると、標準の手法がどんな感じなのかが分かりますね。
以下のような流れでブログをフィルタリングしているようなので、スパムチャンプルーに届くまでに、相当数な数の投稿が排除されているのだと思うのですが、それでもスパムが無くならないのは困り者です。
dos アタック防壁や、先に挙げた rewrite map file によるIP単位でのリジェクトによる、apache レベルでのフィルタリング
↓
グローバルのブラックリスト、投稿間隔チェック、送信先のブログの存在チェックや、ユーザによるNGワード設定チェックなど、アプリケーションレベルでのフィルタリング
↓
スパムちゃんぷるー
↓
グローバルのブラックリスト、投稿間隔チェック、送信先のブログの存在チェックや、ユーザによるNGワード設定チェックなど、アプリケーションレベルでのフィルタリング
↓
スパムちゃんぷるー
計算としては、各プラグインが0以上1以下のスコアを算出。最終的なスコアはプラグインの数がnのときに、「Π_(1<=i<=n) (1 - P(スパムじゃない|f_i))」を、どのプラグインから見てもスパムじゃないスコアとして算出するようです。
つまり、最終的なスコアが0に近づけば近づくほど黒というわけです。あとは、スコアの閾値をサービスごとに決定するだけですね。
こういう感じでスパムを検出するシステムは、一回も作ったことがないですが、僕は今も昔もデータを処理するたびに日々スパムに悩んでいるので、一回やってみたいなぁと感じました。
【関連リンク】
- livedoor ニュース - ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに
-- http://news.livedoor.com/article/detail/3854778/
ライブドアは10月10日、国内主要ブログを対象とした検索エンジン「livedoor ブログ検索」を、スパムブログを排除できるようにバージョンアップした。自社開発のスパムフィルタ「スパムちゃんぷるー」を導入し、検索結果にスパムブログが表示されないようにした。
投稿者:としのり 日時:23:59:59 | コメント | トラックバック() |

