連載
» 2011年07月20日 00時00分 UPDATE

テキストマイニングで始める実践Hadoop活用(2):実践! 「MapReduceでテキストマイニング」徹底解説 (1/3)

Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します

[吉田一星,ヤフー株式会社]

「青空文庫」をテキストマイニング!

 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。

 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。

 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場合がほとんどで、著者の寿命が分かります。「著作権の消滅した作家名一覧」ページに作者の生年と没年月日一覧があるので、著者の寿命を抜き出せます。そこで、青空文庫の作品データから学習を行って、テキストデータから著者の寿命を推定するサンプルプログラムを作成していきましょう。

 なお、遊び程度の精度しか出ないので、あくまで、テキストマイニングの手法を説明するためのサンプルプログラムとしてお考えください。

“重み”を推定する「回帰」とは

 前回、bag-of-wordsでテキストをベクトル化する方法を説明しました。例えば、「男の中の男の中でも特に男臭い男は男の中の男の中の男となる」というテキストから名詞を抽出したベクトル「x」を考えます。

 ベクトルは、以下のような2次元のベクトルで表されます。

(「男」の出現回数, 「中」の出現回数)

 ここでは、以下のように表します。

x=(6,4)

 このベクトル「x」のそれぞれの単語に対して“重み”を付けることを考えてみましょう。重みをベクトル「w」で表し、例えば、以下のような“重み”を付けることを考えてみます。

w=(5,3)

 このxとwを掛け合わせると、以下のようになります。

y=wx=6×5+4×3=42

 このyの値が寿命であれば、テキストに対して寿命が予測できることになります。wの値さえ分かれば、テキストに対して寿命が出力されるので、うまく寿命が予測できるような、この「w」の値を推定することが、目的となるわけです。

 yの値を寿命のように連続値として考える問題を「回帰」、yが0より小さかったら男、大きかったら女などとカテゴリ分けする問題を「分類」といいます。

 寿命を10代、20代、30代などにカテゴリに分けると、分類問題としても扱えるのですが、まずは、回帰問題として考えてみましょう。

「教師信号」と「損失関数」

 青空文庫のデータを元にwを推定してみましょう。青空文庫の各作品をbag-of-wordsでベクトル化したものを、以下のように表します。

r501.gif

 それぞれの作品の著者の寿命を、以下のように表します。

r502.gif

 このような値を「教師信号」と言います。その名の通り、この値を教師として教えてもらいながら、wの値を推定するわけです。

 では、どのように推定すればいいのでしょうか。以下の関数Lを考えてみます。

r503.gif

 wxはxを重み付けして、寿命を予測する関数でしたが、この予測結果と、正しい結果である教師信号との誤差の二乗を考えます。

 なぜ二乗をしているかというと、必ず正の誤差として出力されるようにするためです。このLを「損失関数」といい、寿命の予測値と正しい寿命の誤差が損失となります。この損失をなるべく小さくするようにwを推定すれば、正しい結果になるべく近い寿命が予測できるようになるわけです。

アルゴリズム「Widrow-Hoffの学習規則」とは

 では、どのように損失がなるべく小さくなるようなwを求めればいいのでしょうか。青空文庫の作品xを1つずつ見ていって、損失が小さくなるようにwを更新していくアルゴリズムを考えます。このアルゴリズムを「Widrow-Hoffの学習規則」と言います。

 以下のようにwを更新していきます。

r5lp.gif

は、

r5lpw.gif

で、損失関数Lに

r5xp.gif
r5bp.gif

を代入したもの、

r5r.gif

は刻み幅を表す正の定数です。


r504.gif

 適当なw(例えば、ゼロベクトル)から始めて、xが与えられるたびに、

r5lp.gif

のwに関する微分を引いてwを更新していきます。


 では、なぜこれを繰り返すことで、損失が小さくなっていくのでしょうか。以下にイメージを書きます。

r505.gif

 

r5lp.gif

はwの2次式ですので、2次曲線になります。

r5alpaw.gif

は、接線の傾きを表しています。点「a」における接線の傾きはマイナスなので、それとは逆のプラスの方向にwを更新すれば、

r5lp.gif

の極小値に近づきます。つまり、接線の傾きとは逆の方向にwを繰り返し移動していけば、最終的に損失の最小値に近づくというわけです。


 この

r5alpaw.gif

を計算すると、以下の式になります。

r506.gif

 つまり、青空文庫の作品xを1つずつ見ていって、寿命の予測値から正しい寿命を引いたものにxを掛けたものを重みベクトルから引いていくというプロセスを繰り返せばいいわけです。

 サンプルデータを使って重みを更新してみます。今まで出てきた変数の説明と、使うサンプルデータをまとめます。

r507.gif

 w'を計算すると、以下の式で、重みベクトルは「(5.6,3.4)」に更新されます。

w'=(5,3)−0.01×(5×6+3×4-52)×(6,4)
  =(5,3)+0.1×(6,4)
  =(5.6,3.4)

 次ページでは、青空文庫の作品をベクトル化するMapReduceプログラムについて解説します。

       1|2|3 次のページへ

Copyright© 2017 ITmedia, Inc. All Rights Reserved.

@IT Special

- PR -

TechTargetジャパン

Touch Barという新UIを得た「MacBook Pro」、プレゼント!

この記事に関連するホワイトペーパー

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。