5日間の処理を1時間に短縮

DWHからHadoop移行で成功事例、欧州広告企業

2010/03/15

 大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。

 nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。

 nugg.adはユーザーのクリックを集計して、そこから有益な広告を出すターゲティング広告の大手。ヨーロッパで最大規模だという。

 ユーザーのクリック情報を集計して、リアルタイムでキャンペーンの効果測定やターゲティング広告の精度の追跡、レポートの作成、機械学習のための学習用データ作成、機械学習モデルの構築などを行うが、1日に生成されるデータ量が年々増えてしまったため、DWHを使ったアプローチではスケールしなくなったという。

 2008年に1日30GBだったログの量は、2010年現在100GBに増加。1日分のデータを処理するのに23時間ほどかかるようになっていたという。さらに週次報告の作成には5日間を要し、2009年時点では常に1週間遅れという状態になっていた。これを計36コア、8TBのディスク容量があるクラスタで処理するようにして、5日の処理時間を1時間に短縮したと言う。

 nugg.adでは新システムを検討するに当たって、当初は3台のHadoopクラスタから試験的に利用を開始したという。このとき、スケーラビリティ以外でHadoopを使うメリットと感じたのは、

  • 管理・監視の容易さ
  • 使いやすさ
  • ソフトウェア・ライセンス料が発生しないこと
  • システム拡張のコストはハードウェアのみであること

という点だという。nugg.adではまず、分散ファイルシステムのHDFS上にログデータを載せて、Pigスクリプトを書くところから始め、その後、Hadoopの標準的なAPIを使って必要なレポート作成の処理が行えるようになるまで1カ月ほどかかったという。さらにその後もDWHの機能を少しずつ移行して、4カ月で完全移行が終了したという。この作業の中で役立ったのは、Hadoopの解説書と、JVM上の動的言語として注目を集めつつある「Clojure」だったという(Clojureについては最近、解説書の邦訳も出ている)。

 nugg.adでは処理時間を大幅に削減できたことで、機械学習の学習用統計データを顧客企業間で共有し、それによってターゲティング精度を上げられるオプションサービスの提供も可能になったという。これはHadoopのように、クラスタにサーバを追加することで処理性能を上げていけるスケールアウト型のアーキテクチャの恩恵という。

 ClouderaはDebian GNU/Linux、Cent OS、Red Hat Enterprise LinuxなどのLinuxデストリビューション向けと、Amazon Web Services、rackspaceなどのクラウド(上のVM)向けのHadoopパッケージを提供している。nugg.adはHadoop利用に当たってClouderaのデストリビューションを利用している。

 Clouderaの解説によれば、Hadoopは必ずしもDWHがこなす処理のすべてを置き換えるべきものではなく、構造化されたデータであれば従来型のOLAPソリューションを使い、複雑な非構造化データの処理にHadoopのようなMapReduce系のソリューションを使うことで、両者を併用できる、としている。いずれにしても、エンタープライズ市場における大規模データ処理で、DWHに加えて今後はHadoopの利用が進む可能性があると言えそうだ。

(@IT 西村賢)

情報をお寄せください:

Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

夫婦で共用するものとしないものの境界線――プラネット調べ
11月22日は「いい夫婦の日」。ハンドタオルは夫婦で共有するけれどバスタオルは? 寝室...

若者はなぜ「ライブ動画」を視聴するのか――ライムライト・ネットワークス・ジャパン調べ
ライムライト・ネットワークス・ジャパンがコンテンツの視聴動向に関する調査結果を発表...

日本で取り組むセールスイネーブルメントと今後の展望
セールスイネーブルメントの概念や代表的なツールについて2回にわたって紹介してきました...