スパム対策の基本技術解説(前編)
綱引きに蛇口当てゲーム?!
楽しく学ぶベイズフィルターの仕組み
草場 英仁
三井物産セキュアディレクション株式会社
久保山 哲二(監修)
UTCCR情報セキュリティコミュニティ
2008/3/5
単純ベイズ法を2つの蛇口でとらえる
いままで見てきたように、単純ベイズ法を用いたスパム判定では、すでに手元にあるスパムメール中に含まれている単語の出現頻度と、非スパムメール中に含まれている単語の出現頻度を計算することで、スパムメールの判定を行いました。
この計算の過程を、もう少し大ざっぱなモデルで説明してみましょう。
まず、無限の単語を含んだ蛇口を2つ考えます。1つは、スパム発生源の蛇口で、もう1つは通常メールの発生源の蛇口です。
そして、蛇口から流れ出た単語が袋に入りメールを生成するとします。それぞれの蛇口に含まれている単語の割合はもちろん違います。おそらく、スパムの蛇口に「無料」が含まれる割合は、非スパムの蛇口に「無料」が含まれる割合よりずっと大きなはずです。
![]() |
| 図4 「スパムメールはスパムの蛇口から作られる」というモデルを考える |
スパム判定問題は、この蛇口を使うと次のようにモデル化できます。
いま、どちらか一方の蛇口から単語をばらばらと(有限個)こぼします。この単語を袋に入れた時、袋の中身はスパムの蛇口と非スパムの蛇口、どちらから出てきたものなのかをを当てるクイズがスパム判定問題です。その袋とは、あなたが受け取ったメールの文章そのものと考えてください。
今まで説明した計算式をこのモデルを使いおさらいをしましょう。
知りたいのは、袋の中身Fを見たとき、その袋がスパムの蛇口から出てきたものなのか、それとも非スパムの蛇口から出てきたものなのかです。例えば、袋の中身Fを見たあとに、その袋がスパムである確率は、P(スパム|袋の中身F)です。スパムの蛇口(原因)から、袋の中身F(結果)が作られたという、「原因→結果」の関係に注目すると、ベイズの定理は、袋の中身Fという結果から、スパムの蛇口という原因を推測する逆の「結果→原因」方向の問題を解くための方法なのです。
![]() |
| 図5 袋の中身から、どちらの蛇口から来たのかを判定できるか? |
|
| 図6 メールの特徴を見て、どちらの蛇口から出てきたものかを当てることがベイズフィルターの動作である |
ベイズの定理は理解頂けたでしょうか。理論を理解していただいたところで後編では実装上の話(さまざまなスムージング手法など)を解説します。
|
4/4 |
| Index | |
| 綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組み | |
| Page1 付き合いたくないスパムと付き合うために スパムと非スパムの「綱引き」 |
|
| Page2 メールの特徴抽出――単語の詰まった袋をモデルとして 基本理論:ベイズの定理とその解釈 ベイズの定理を「直感的に」解釈する |
|
| Page3 どうやってベイズフィルターの実装をするのか スパムの判定 スパムフィルター実装上での問題 |
|
| Page4 単純ベイズ法を2つの袋でとらえる |
|
| Profile |
| 草場 英仁(くさば ひでかず) 三井物産セキュアディレクション株式会社 ビジネスデベロップメント部 主席研究員 大手システム会社からベンチャー企業、ペネトレーション会社を経て現職へ。ルータ開発やファイアウォール開発、apacheや*BSDなどのOSS開発を経験し、低レイヤから高レイヤまで深いレベルでのハッキング技術を有する。 Exploit作成や手動でのペネトレーションテストなど、ツールではない本物の技術にこだわり、官公庁や企業へのハッキング教育、ペネトレーションテストに従事。その他、大学で非常勤講師、研究員などを勤めるかたわら、セキュリティ関連を中心に執筆多数。アカデミックな一面を持つ希少なエンジニア。最近はフォレンジックや携帯関連(端末・ガジェット・アプリなど)のハックにいそしむ。なお、同姓同名(読みは違う)の、どこにでもいる普通の変態な方とよく間違われるが http://twitter.com/E_I_J_I_R_O は私ではありません。 |
| 関連記事 | |
| 連載:電子メールセキュリティの基礎知識 | |
| Sender ID:送信者側の設定作業 | |
| Sender ID:受信者側の設定作業 | |
| 電子署名を使うDomainKeysの設定方法 | |
| 電子署名方式の最新技術「DKIM」とは | |
| Security&Trust記事一覧 |
TechTargetジャパン
- 実録、「Hardening Zero」の舞台裏 (2012/5/25)
コラムの更新頻度を落として何をやっていたかって? 「守る技術」に焦点を当てたこんなイベントを開催しました - 複雑化、巧妙化する脅威への対策は? (2012/5/23)
データ保護や標的型攻撃対策、クラウドセキュリティ……「第9回 情報セキュリティEXPO」の会場で見つけた製品を一挙に紹介 - 仮想化がはらむ新たなリスク (2012/5/17)
仮想化に伴って生じるセキュリティやパフォーマンスへの影響を慎重に考慮し、うまく制御していく方法を紹介します - 新入生も新入社員も勉強会に寄っといで! (2012/5/14)
週末ともなれば至るところでセキュリティ系勉強会やCTFなどのイベントがあり、ツイートも盛り上がりました
|
|
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
- - PR -



