[運用]
POPFileで構築する迷惑メール・フィルタ(前編)
3.POPFileのインストール(1)―入手と機能の選択
デジタルアドバンテージ 打越 浩幸
2008/06/23 |
|
|
POPFileの入手
POPFileは以下のサイトで配布されている、フリー・ソフトウェアである。プログラム本体やドキュメントなどは、以下のページを参照していただきたい。
トップ・ページの右上にある「クイック・リンク」をクリックすると、POPFileの最新版のダウンロード・ページへ移動する(次の画面参照)。
 |
| POPFileのダウンロード・ページ |
| 先のPOPFileのホームページにある「POPFile のダウンロード」のリンクをクリックすると、このダウンロード・ページが表示される(ダウンロード・ページはこちら)。原稿執筆時の最新バージョンは、2008年5月27日に公開されたVer.1.0.1。 |
|
 |
これがリンクになっている。Windows OS向けのバージョンを入手するには、このWindows版の「v1.0.1」というリンクをクリックする。 |
|
POPFileのインストール
上のページでWindows版のダウンロード用リンクをクリックすると、popfile-1.0.1-windows.zipというzipファイルが得られる。展開すると中にsetup.exeという実行ファイルが含まれているので、これをどこかローカルのディスク上へコピーしてから、ダブルクリックするとPOPFileのインストーラが起動する。以下、順にインストール手順について見てみよう。
なお、以下では新規インストールの例を紹介するが、すでにPOPFileの旧版をインストールしており、バージョンアップする場合は、万一のときのために現在のPOPFileフォルダをどこかにコピー(バックアップ)してから、単に上書きインストールすればよい。従来の設定や辞書データなどはそのまま引き継ぐことができる。
インストーラの最初のステップでは、インストールする言語を選択する。POPFileのセットアップ・プログラムは1つのバイナリで複数の言語に対応しており、ユーザー・インターフェイスのメニューなどを日本語や英語などに自由に変更できる(インストール後に変更することも可能)。
 |
| 言語の選択 |
| セットアップの最初の段階では、インストールする言語を選択する。日本語メニューにするには「Nihongo」を選択する。 |
|
 |
日本語OS環境では、デフォルトの「Nihongo」を選択して先へ進む。 |
|
言語を選ぶと、セットアップ・ウィザードが(選択した言語で)表示されるので、[次へ]をクリックして先へ進む。
 |
| セットアップ・ウィザードの起動画面 |
| 言語を選ぶと、セットアップ・ウィザードが(選択した言語で)表示される。 |
|
 |
これをクリックして先へ進む。 |
|
最初にライセンス条項が表示されるので、内容を確認して先へ進む。
 |
| ライセンスの表示 |
| POPFileのライセンスなどに関する情報が表示されるので、内容を確認して先へ進む。 |
|
 |
内容を確認後、チェック・ボックスをオンにする。 |
|
 |
これをクリックして先へ進む。 |
|
次の画面では、「日本語の分かち書き」に使用するプログラムを選択する。日本語の分かち書きとは、メールの本文から日本語の単語を切り出す処理のことであり(例:「重要な処理である」→「重要な」「処理」「である」などと分ける)、POPFileのベイジアン・フィルタにおける分類処理で利用される、重要な処理である。単語ごとに、どのバケツに分類できるかを計算するためだ。日本語は英語と異なり、単語が空白文字で区切られているわけではない。そのため単語を切り出す処理を行わないと、例えば文章単位でしか迷惑メールかどうかを判断できなくなり、少し語尾や言い方を変えただけで、迷惑メールではないと判断される可能性がある。
 |
| 日本語の分かち書き処理のプログラムの選択 |
| メールの本文などから日本語の単語を切り出すための処理プログラムを選択する。が、どれを使っても分類の精度に大きな差はないようである。 |
|
 |
デフォルトではKakasiというシステムを利用するが、より精度の高い(高度な形態素解析を行う)MeCab(めかぶ)や、非常にシンプルな内蔵パーサーも利用できる。 |
|
デフォルトでは「Kakasi(KAnji KAna Simple Inverter)」という、シンプルな「漢字→かな(ローマ字)変換プログラム」を利用して、日本語の単語を切り出している。
Kakasi以外に、より高度な形態素解析エンジンであるMeCab(めかぶ)も選択できるが、辞書サイズが大きくなるというデメリットがある。逆に辞書を使わず、文字種のみに基づいて分かち書きを処理する「内蔵パーサ:文字種による分割」を使うこともできる(例えば連続するひらがなやカタカナ、漢字を単語と見なすなど)。内蔵パーサーなら処理は軽いし、辞書も不要なのでディスク・サイズは少なくて済む。
だが実際のところ、どの方法を使っても最終的な分類の精度は変わらないようである(上の画面のメッセージ参照)。どの方法で単語を切り出したとしても、最終的にはベイズ理論で分類するため、学習時と参照時で同じ方法で単語が切り出せればよいからのようだ。逆にいうと、運用開始後にこの処理アルゴリズムを変更すると(後でも変更可能)、単語の切り出し処理の方法が変わり、分類精度が一時的に低下することになる(しばらく学習すれば、また精度は向上する)。特に理由がない限り、デフォルトのKakasiを選択しておけばよいだろう。
インストールの次の画面では、インストールするコンポーネントを選択する。デフォルトではPOPFileのコア・コンポーネントとスキン設定(メニューのスタイルやウィンドウの色など)、言語、日本語のパーサーが選択されている。NNTPやSMTPのProxy、IMAPサポートなどが必要なら、該当するチェック・ボックスをオンにする。メール・サーバとの接続にSSL(Secure Socket Layer)を使用する場合も同様だ(詳細はTIPS「POPFileでSSLを使ってメール・サーバに接続する」を参照のこと)。
 |
| インストールするコンポーネントの選択 |
| NNTPやSMTPのProxy、IMAPなどのサポートが必要な場合は、それぞれのチェック・ボックスをオンにする。以下の例では、すべてデフォルトのままの設定でインストールしたものを使用している(メールはPOP3プロトコルでのみアクセスするものとする)。 |
|
 |
デフォルトでインストールされるコンポーネント。POPFileとNihongo Parserは必須コンポーネント。 |
|
 |
オプションのコンポーネント。例えばIMAPプロトコルのサポートが必要なら、チェック・ボックスをオンにする。 |
|
次の画面では、POPFileプログラムのインストール先を指定する。学習した辞書などのデータは、ユーザーごとのフォルダに置かれるので、この場所には書き込まれることはない。
 |
| POPFileプログラムのインストール先の指定 |
| デフォルトでは%ProgramFiles%\POPFileフォルダにインストールされる。 |
|
 |
インストール・パスの指定。必要なディスク・サイズは、デフォルト・コンポーネントだけだと13Mbytes程度と小さい。 |
|
次の画面はインストールのサマリーである。内容を確認後、[インストール]ボタンをクリックすると、実際にPOPFileプログラムがインストールされる。
 |
| インストールのサマリー |
| ここまでの設定の概要が表示されているので、内容を確認後、[インストール]ボタンをクリックすると、実際のインストールが始まる。 |
|
 |
サマリー画面。 |
|
TechTargetジャパン
Windows Server Insider フォーラム 新着記事
キャリアアップ