[運用]

POPFileで構築する迷惑メール・フィルタ(後編)
―― POPFileのトレーニングとメーラの設定 ――

1.POPFileのトレーニング(1)

デジタルアドバンテージ 打越 浩幸
2008/07/10


 前回はPOPFileの概要とインストール方法について解説した。今回は、メールの内容に基づいてPOPFileをトレーニングする方法やメーラとの連携方法などについて解説する。

POPFileのトレーニング

 POPFileはインストールしただけではまだ利用できず、ユーザーが十分なトレーニングを行って初めて効果を発揮するツールである。その点がOutlookの迷惑メール・フィルタなどと異なるところであるが(詳細は前回の記事参照)、トレーニングさえ済ませれば、非常に高精度で分類できるのが大きなメリットである。

 具体的なトレーニングの内容としては、メールを受信後、それぞれのメールが迷惑メールであるか、それとも(正当な)仕事用のメールであるかなどをPOPFileに指示するだけである。これを何度か繰り返して、分類の精度を向上させていく。どの程度トレーニングさせるべきなのかは、受信するメールの内容に大きく依存するが、実際に使ってみた感じでは100通とか200通程度行えば、ほぼ9割以上の確率で正しく分類できるように思われる。さらに1〜2週間も運用すれば、99%以上の精度で分類できるようになるだろう(例えば日本語のスパム・メールは週末に多いなど、曜日や時間帯によってメールの種類にばらつきがあるので、最低でも1週間くらいはトレーニングが必要だろう)。

バケツの初期設定

 前回はPOPFileをインストールし、分類用に3つのバケツ(info、work、spam)を新規作成するところまでを解説した(「4.POPFileのインストール(2)―初期バケツの作成」参照)。以下がそのバケツの初期状態である。これはPOPFileの管理画面で、[バケツ]タブを選択したところである。管理画面は、[スタート]メニューの[プログラム]−[POPFile]−[POPFile User Interface]を選択するか、システム・トレイ上のPOPFileアイコンを右クリックして、[POPFile UI]というメニューを選択する。

バケツの初期状態
作成したバケツの設定変更画面。バケツごとの設定統計値の参照、バケツの追加/削除などが行える。なお、この画面の色やフォントなどのデザインは、より多くの文字を表示させるために、「coolyellow」に変更している(デザインは[設定]タブで変更可能)。
このタブを選択する。
バケツ名。infoは各種メール情報サービス用、spamは迷惑メール用、workは仕事のメール用のバケツ。インストール時に手動で作成した。unclassifiedはデフォルトで用意されているバケツ。分類できないメールはすべてここに入れられるので、ユーザーは手動で再分類する。
バケツの名前に応じて、件名の先頭にバケツ名を付加する。デフォルトではすべてオン。
メール・ヘッダにX-Text-Classificationを付加する。デフォルトではすべてオン。
メール・ヘッダに、POPFileの該当するメール・メッセージへのリンクを追加する。デフォルトではすべてオン。
メールの本文を添付ファイルとして分離する。
各バケツの色の選択。ここで指定した色は、管理画面中のさまざまな場所で使われる。例えばspamバケツと関連性の高い単語は赤、workバケツと関連性の高い単語は緑、といった具合である。
設定変更後に、これをクリックすると適用される。

 実際のトレーニング作業に入る前に(つまり、POPFileでメールを受信する前に)、分類したメールをどう扱うかを決めておく必要がある。それがこの画面にある[件名の変更]や[X-Text-Classificationヘッダー]というチェック・ボックスの設定である。

 デフォルトではこの画面にあるのチェック・ボックスはすべてオンになっている。受信したメールが各バケツに分類されると、これらのチェック・ボックスの設定に応じて、それぞれ次のように動作する。メール・アプリケーション(メーラ)ではこれらの設定に従って、POPFile経由で受信したメールを分類することになる(具体的なメーラ側の設定については後述)。

チェック・ボックス 意味
件名の変更 受信したメールの件名(サブジェクト、標題)の先頭にバケツ名を付加する。デフォルトではオンになっている。例えば「spam」バケツに分類されたメールなら、件名が「[spam] お買い得です」のようになる
X-Text-Classificationヘッダー 受信したメールのヘッダ情報部分に、バケツ名を表す特別なヘッダ文字列が付加される。デフォルトではオンになっている。例えば「spam」バケツに分類されたメールなら、「X-Text-Classification: spam」というヘッダが付加される。
X-POPFile-Link ヘッダー これは受信したメールのヘッダ中に「X-POPFile-Link: http://127.0.0.1:8080/jump_to_message?view=436」といったURL(リンク)を挿入させるためのフラグである。デフォルトではオンになっている。メーラによってはこのリンクを表示させるものがあり(OutlookやOutlook Expressではできない)、リンクをクリックするとローカルのPOPFile管理画面を起動して、メールの内容を確認できる。これはPOPFileの管理画面を開いて[履歴タブ]から特定のメールを選択してクリックするのと同じである。つまり、素早くPOPFileへアクセスできるようになるが、それ以上の効果は特にない
隔離 受信したメールの本文を隔離して添付ファイルに変換し、本文部分にはオリジナル・メッセージの件名やFrom:、To:などと、メール本文の先頭の20ワードが表示される。デフォルトではオフになっている。元のメールは添付されたメール形式のファイルを開くと表示される。本文に不正な文字やスクリプトなどが含まれている場合に、いきなり開かないようにするための効果があるが、いちいち添付ファイルを開かないと元のメール内容を確認できないので、使いづらくなる
バケツごとの設定
POPFileでは、メールをバケツに分類すると同時に、ヘッダや件名部分にバケツ名などの情報を付加することができる。この情報を見て、メーラでは迷惑メールとして処理したり(迷惑メール・フォルダへの分類や削除など)、迷惑メールを隔離したりできる。

 以上のうち、どの機能を使うかはクライアントのメーラに依存するが、メーラがX-Text-Classification:ヘッダを識別できるならこれを使い、そうでなければ、件名にバケツ名を付加する(「件名の変更」機能)を使うのがよいだろう。具体的なメーラ側の設定については後述するが、OutlookならX-Text-Classificationヘッダによる識別を、Outlook Expressなら件名の変更機能を利用するとよいだろう。

 上の設定画面例では、infoとspamバケツについては件名を変更しているが、work(通常の仕事用メールを分類するバケツ)とunclassified(未分類のメール用のバケツ)については件名を変更しないようにチェック・ボックスをオフにしている。通常のメールの件名がいちいち変更されてしまうと面倒だからだ。またX-Text-Classification:ヘッダについては、デフォルトのまま、すべてのバケツについてオンにしている。これにより、受信したメールにはすべてX-Text-Classification:ヘッダが付加されることになるが、このヘッダ情報は通常はユーザーからは見えないので、特に問題になることはないだろう。

メールの受信とトレーニング作業

 以上でPOPFileの設定はすべて終了である。メール・アカウントの設定(POP3サーバへのアクセスをPOPFileへリダイレクトさせる設定。前回の「5.POPFileのインストール(3)―メール・アカウントの設定」参照)も済んでいるものとする。

 次はいよいよメールの受信とPOPFileのトレーニング作業を行うが、トレーニング作業がひととおり終了するまでは、手動で受信操作を行う方が都合がよいので(トレーニング作業の途中で勝手にメールを受信されると、作業ミスが発生する可能性がある)、しばらくはメーラの自動受信機能を無効にしておこう。例えばOutlook Expressではデフォルトでは30分ごとに自動送受信しているが、[ツール]の[オプション]メニューで[新着メッセージをチェックする]をオフにしておく。具体的なオプション画面についてはTIPS「Outlook Expressで定期的にメールを自動受信する」を参照していただきたい。

 POPFileとメーラの設定が完了していれば、次はメーラの[送受信]ボタンをクリックして、実際にメールを受信してみよう。この場合、トレーニング作業の手間を考えると、一度に数十通(20〜30通ずつ、多くても50通程度)ずつ作業すると効率がよいだろう。1回の送受信で100通以上も受信するようなユーザーならば、まず数十通程度受信したところでいったん送受信を中断させ、トレーニング後に続きを受信してまたトレーニング、という手順を繰り返せばよい(受信を途中で中断しても、メールがなくなるようなことはない)。

メールの受信結果
これはPOPFile経由でメールを受信したところ。POPFileがない場合と同様に、メールが受信できるかどうか確認しておく。
受信したメールの件名一覧。モザイク処理されているものはすべて迷惑メールである。

 この画面のように、正しくメールが受信できることをまず確認していただきたい。もし受信できないようなら、アカウントの変更処理などが正しく行われていないか、POPFileが起動していないなどの原因が考えられるので、適宜対処していただきたい(POPFileが起動しているかどうかは、システム・トレイにPOPFileのアイコンがあるか、タスク・マネージャでpopfileib.exeというプロセスが見つかるか、などで確認できる)。

 受信したメールは、一見するとPOPFileを使わない場合と同様に見えるだろう。だが受信したメールは、(何もトレーニングさせていないので)最初はすべて「unclassified」というバケツに分類されているはずである。先ほどのバケツの設定で、unclassifiedの場合は件名の変更を無効にしているので、件名からバケツの種類を知ることはできない。


 INDEX
  [運用]POPFileで構築する迷惑メール・フィルタ
  POPFileを導入して迷惑メールを分類する(前編)
    1.迷惑メールとその対策
    2.迷惑メールの分類をサポートするPOPFile
    3.POPFileのインストール(1)―入手と機能の選択
    4.POPFileのインストール(2)―初期バケツの作成
    5.POPFileのインストール(3)―メール・アカウントの設定
    6.POPFileの管理画面
 
  POPFileのトレーニングとメーラの設定(後編)
  1.POPFileのトレーニング(1)
    2.POPFileのトレーニング(2)
    3.メーラによるメールの分類
    4.設定のカスタマイズと使いこなし

 運用


Windows Server Insider フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Windows Server Insider 記事ランキング

本日 月間