5日間の処理を1時間に短縮
DWHからHadoop移行で成功事例、欧州広告企業
2010/03/15
大規模サービスを展開するWeb企業から始まったHadoop利用だが、エンタープライズ分野でも少しずつ成功事例が出てきているようだ。Hadoopの商用パッケージとサポートに特化したベンチャー企業、米Clouderaの3月10日付ブログで、ヨーロッパでターゲティング広告事業を展開するnugg.adが成功事例を詳細に報告している。報告しているのはnugg.adのCTO、リチャード・フットン(Richard Hutton)氏。
nugg.adでは、2007年から2009年までの間、PostgreSQLをベースに古典的なデータウェアハウス(DWH)によるシステムを構築していたが、2009年6月から10月にかけてHadoopベースのシステムに移行。それまで5日かかっていたような処理が1時間にまで短縮し、計算処理の大幅時間短縮によって、これまで提供が考えられなかったような付加価値サービスの提供が可能となったという。
nugg.adはユーザーのクリックを集計して、そこから有益な広告を出すターゲティング広告の大手。ヨーロッパで最大規模だという。
ユーザーのクリック情報を集計して、リアルタイムでキャンペーンの効果測定やターゲティング広告の精度の追跡、レポートの作成、機械学習のための学習用データ作成、機械学習モデルの構築などを行うが、1日に生成されるデータ量が年々増えてしまったため、DWHを使ったアプローチではスケールしなくなったという。
2008年に1日30GBだったログの量は、2010年現在100GBに増加。1日分のデータを処理するのに23時間ほどかかるようになっていたという。さらに週次報告の作成には5日間を要し、2009年時点では常に1週間遅れという状態になっていた。これを計36コア、8TBのディスク容量があるクラスタで処理するようにして、5日の処理時間を1時間に短縮したと言う。
nugg.adでは新システムを検討するに当たって、当初は3台のHadoopクラスタから試験的に利用を開始したという。このとき、スケーラビリティ以外でHadoopを使うメリットと感じたのは、
- 管理・監視の容易さ
- 使いやすさ
- ソフトウェア・ライセンス料が発生しないこと
- システム拡張のコストはハードウェアのみであること
という点だという。nugg.adではまず、分散ファイルシステムのHDFS上にログデータを載せて、Pigスクリプトを書くところから始め、その後、Hadoopの標準的なAPIを使って必要なレポート作成の処理が行えるようになるまで1カ月ほどかかったという。さらにその後もDWHの機能を少しずつ移行して、4カ月で完全移行が終了したという。この作業の中で役立ったのは、Hadoopの解説書と、JVM上の動的言語として注目を集めつつある「Clojure」だったという(Clojureについては最近、解説書の邦訳も出ている)。
nugg.adでは処理時間を大幅に削減できたことで、機械学習の学習用統計データを顧客企業間で共有し、それによってターゲティング精度を上げられるオプションサービスの提供も可能になったという。これはHadoopのように、クラスタにサーバを追加することで処理性能を上げていけるスケールアウト型のアーキテクチャの恩恵という。
ClouderaはDebian GNU/Linux、Cent OS、Red Hat Enterprise LinuxなどのLinuxデストリビューション向けと、Amazon Web Services、rackspaceなどのクラウド(上のVM)向けのHadoopパッケージを提供している。nugg.adはHadoop利用に当たってClouderaのデストリビューションを利用している。
Clouderaの解説によれば、Hadoopは必ずしもDWHがこなす処理のすべてを置き換えるべきものではなく、構造化されたデータであれば従来型のOLAPソリューションを使い、複雑な非構造化データの処理にHadoopのようなMapReduce系のソリューションを使うことで、両者を併用できる、としている。いずれにしても、エンタープライズ市場における大規模データ処理で、DWHに加えて今後はHadoopの利用が進む可能性があると言えそうだ。
関連リンク
関連記事
情報をお寄せください:
TechTargetジャパン
- やはりSELECT文は永遠のテーマです (2012/2/7)
Database Expertフォーラムの2012年1月のアクセスランキングをお届けします。定番の記事を一気に追い抜いてあの記事が…… - SELECT文で取り出したデータを加工して表示する (2012/1/25)
SELECT文で取り出したデータを対象に四則演算する方法など、データを見やすくする方法を解説します - 2012年は私たちが勉強会を盛り上げる! (2012/1/23)
2011年12月、データベース業界初の女子会が発足しました。そこで、女子会を盛り上げていってくれそうな2人にお話を伺いました - 複数の条件を指定してSELECT文を実行する (2012/1/13)
複数の条件を指定してSELECT文を実行する方法と、条件指定に必要な論理演算子、比較演算子の役割を解説します
|
|
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
- - PR -
