Amazon Elastic MapReduceのベータ版

アマゾン、ウィザードだけで使えるHadoopサービス開始

2009/04/02

 米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。

 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。

aws01.png Webブラウザの管理コンソール「AWS Management Console」に新たに「Amazon Elastic MapReduce」のタブが追加
asw03.png 「Job Flow」をウィザードで作成して実行させる
asw02.png 入出力の場所や、Map、Reduceを記述した実行形式の場所を指定する

 ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはインターネット上のデータも指定できる。

 マスターノードが入力データを分割し、スレーブノードに割り振る。スレーブノードでは「Map」と呼ばれる処理を細切れのデータに適用し、その結果は「Reduce」と呼ばれる処理で統合されてから、Amazon S3上に保存される。処理を記述する言語として、Java、Ruby、Perl、Python、PHP、R、C++が使えるほか、サードパーティ製のライブラリも利用可能という。ただし、Java言語をコンパイルしたjarファイルでは、Hadoopの機能がフルに使えるが、そのほかの言語では1ステップのMap/Reduceだけが実行可能という違いがある。

 マスターノードにフェイルオーバーの機能はないが、スレーブノードに何らかの障害があった場合には、自動的に該当ノードをシャットダウンして再起動、自動的に別ノードにジョブやデータを再配備する耐障害性を備えている。

 起動できるノード数に制限はないが、20インスタンス以上利用する場合には、事前に申請が必要。価格はインスタンスの計算リソースによって異なるが、1仮想コア、メモリ1.7GB、ハードディスク160GBの場合、1インスタンス当たり0.015ドルから。これにAmazon EC2の価格やAmazon S3の利用料が加わる。Amazon EC2のインスタンスは1時間0.1ドルから。例えば、Amazon Elastic MapReduceで100インスタンスを起動して1時間以内で処理が終わった場合には、MapReduceに1.5ドル、Amazon EC2に10ドルの課金が発生することになる。

(@IT 西村賢)

情報をお寄せください:

Java Agile フォーラム 新着記事

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

イーロン・マスク氏がユーザーに問いかけた「Vine復活」は良いアイデアか?
イーロン・マスク氏は自身のXアカウントで、ショート動画サービス「Vine」を復活させるべ...

ドコモとサイバーエージェントの共同出資会社がCookie非依存のターゲティング広告配信手法を開発
Prism Partnerは、NTTドコモが提供するファーストパーティデータの活用により、ドコモオ...

「インクルーシブマーケティング」実践のポイントは? ネオマーケティングが支援サービスを提供
ネオマーケティングは、インクルーシブマーケティングの実践に向けたサービスを開始した...