いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（1/3 ページ）

Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します

» 2011年06月21日 00時00分公開

[吉田一星，ヤフー株式会社]

ビッグデータ時代の救世主「Hadoop」とは

　「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。

　Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。

Welcome to Apache Hadoop! via kwout

　本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。

重い処理を複数のマシンに分散させる

　複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。

　例えば、Hadoopを使うと、1台で数日かかっていたような重い処理を、複数のマシンに分散させることで、数時間で終わらせる、といったことも可能になります。

Hadoopを構成する「MapReduce」「HDFS」

　Hadoopは、大きく分けてMapReduceとHDFSで構成されています。

　MapReduceとは、Hadoopで処理を記述するプログラミングモデルで、シンプルながら、さまざまな処理に柔軟に対応できます。

　HDFSは、MapReduceで処理するデータを扱う分散ストレージで、複数のマシンを1つのストレージとして、扱えます。

　一部のマシンが故障しても、データが失われないように設計されていて、データ量に応じてスケールアウトすることが可能です。

　では、MapReduceについて、例を挙げて詳しく説明していきます。

分散処理のためのプログラミングモデル「MapReduce」

　MapReduceは、「Map」「Shuffle」「Reduce」の3つのフェイズに分かれます。ユーザーは、Mapフェイズ、Reduceフェイズで繰り返し呼び出される、map関数、reduce関数に行いたい処理を記述します。Shuffleフェイズは内部で自動的に行われます。

　例えば、あるテキストの中で出現する単語をカウントする処理を考えてみましょう。「THE END OF MONEY IS THE END OF LOVE」というテキストがあったとすると、各単語の出現数は、以下になります。

　これをMapReduceで処理してみます。

Key、Valueのペアを作る「Map」

　Mapは、「THE END OF MONEY IS THE END OF LOVE」というテキストを入力として読み込みます。そして、それぞれの単語に「1」という値を割り当てます。

　MapReduceのデータは、KeyとValueのペアで表されます。Key、Valueのペアをと表せば、Map処理は、入力テキストから次のようなを作り出すことです。

"THE END OF MONEY IS THE END OF LOVE"
　　　　　　　　　↓
[ <THE,1> <END,1> <OF,1> <MONEY,1> <IS,1> <THE,1> <END,1> <OF,1> <LOVE,1> ]

同じKeyを持つペアを束ねる「Shuffle」

　Mapの出力をキー順にソートし、同じKeyを持つペアを束ねるのがShuffleです。キー順にソートすることにより、同じKeyを持つペア同士が隣り合います。そして、隣り合った同じKeyを持つペアは、束ねられます。

　Shuffleは、MapからReduceにデータを渡す際に自動的に行われます。

入力

キー順にソート

同じKeyを束ねる

[ <THE,1> <END,1> <OF,1> <MONEY,1> <IS,1> <THE,1> <END,1> <OF,1> <LOVE,1> ]
　　　　　　　　　　　　　　　　　　　↓
[ <END,1> <END,1> <IS,1> <LOVE,1> <MONEY,1> <OF,1> <OF,1> <THE,1> <THE,1> ]
　　　　　　　　　　　　　　　　　　　↓
[ <END,[1,1]> <IS,1> <LOVE,1> <MONEY,1> <OF,[1,1]> <THE,[1,1]> ]

Shuffleの結果を入力として処理を行う「Reduce」

　Shuffleの結果を入力として処理を行います。WordCountでは、同じKeyのValueを足し合わせます。

入力

Reduce後

[ <END,[1,1]> <IS,1> <LOVE,1> <MONEY,1> <OF,[1,1]> <THE,[1,1]> ]
　　　　　　　　　　　　　↓
[ <END,2> <IS,1> <LOVE,1> <MONEY,1> <OF,2> <THE,2> ]

　このように各単語の出現数がカウントされて出力されるわけです。

　次ページでは、Hadoopの活用方法を具体的に見ていき、テキストマイニングについて解説します。

　　　　　　 1|2|3 次のページへ

＠IT eBook

編集部からのお知らせ

5/13～14【無料オンラインセミナー】『＠IT NETWORK Live Week 2024 春 ── さあ、次世代ネットワークで変革の時』で、東京大学の関谷勇司教授による【基調講演　「いま」の SD-WAN 技術と今後の展望】、ライオン木場迫栄一氏による【基調講演　SASE導入により加速したスマートインフラへの道のり】を配信

＠IT

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（1/3 ページ）

ビッグデータ時代の救世主「Hadoop」とは

重い処理を複数のマシンに分散させる

Hadoopを構成する「MapReduce」「HDFS」

分散処理のためのプログラミングモデル「MapReduce」

Key、Valueのペアを作る「Map」

同じKeyを持つペアを束ねる「Shuffle」

Shuffleの結果を入力として処理を行う「Reduce」

＠IT eBook

Excelで学ぶ、やさしいデータ分析

セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

【動画あり】サイバーセキュリティ人材が欲しい！　に応える無料の電子書籍

新規プロダクト開発のプロジェクト推進スキームと、ビジネスに価値を提供するエンジニアの振る舞いを学べる電子書籍

編集部からのお知らせ

いまさら聞けないHadoopとテキストマイニング入門：テキストマイニングで始める実践Hadoop活用（1）（1/3 ページ）

ビッグデータ時代の救世主「Hadoop」とは

重い処理を複数のマシンに分散させる

Hadoopを構成する「MapReduce」「HDFS」

分散処理のためのプログラミングモデル「MapReduce」

Key、Valueのペアを作る「Map」

同じKeyを持つペアを束ねる「Shuffle」

Shuffleの結果を入力として処理を行う「Reduce」

＠IT eBook

Excelで学ぶ、やさしいデータ分析

セル結合を回避しながら表の見た目も確保するなど、「構造化Excelテク」12本まとめ

【動画あり】サイバーセキュリティ人材が欲しい！ に応える無料の電子書籍

新規プロダクト開発のプロジェクト推進スキームと、ビジネスに価値を提供するエンジニアの振る舞いを学べる電子書籍

編集部からのお知らせ

【動画あり】サイバーセキュリティ人材が欲しい！　に応える無料の電子書籍