データウェアハウス最前線(3)

「アプライアンスライク」な構成で導入コストを低減

吉村 哲樹
2010/11/29

2009年6月に突如DWHアプライアンス市場に乗り込んだマイクロソフト。インテルアーキテクチャの汎用サーバと一般的なストレージを利用することで、導入コストを下げながら必要十分な性能を維持しているという(編集部)

汎用ハードウェアとSQL Server 2008で構成

 マイクロソフトが2009年6月に投入したデータウェアハウス(以下、DWH)アプライアンス製品「Microsoft SQL Server 2008 Fast Track Data Warehouse」(以下、Fast Track Data Warehouse)は、大手ソフトウェアベンダが本格的にDWHアプライアンス市場に参入を果たしたという意味で大いに注目を集めた。

 その前年にマイクロソフトは、DWHアプライアンスベンダのデータアレグロを買収しており、その直後から、データアレグロの技術を取り込んだマイクロソフトブランドのDWHアプライアンス製品が登場するのではないかと、多くの関係者が注目していた。

 しかし、実際に登場したFast Track Data Warehouseは、いわゆる一般的な「アプライアンス」とは少し毛色が異なるものとなった。ハードウェアには、各サーバベンダの汎用的なインテルアーキテクチャのものを使い、ストレージも一般的なファイバチャネル接続のディスクアレイである。マイクロソフトは、サーバベンダにFast Track Data Warehouseのソフトウェアを提供し、サーバベンダはそれをプリインストールしたサーバを販売するという形になる。価格はベンダやハードウェア構成によって異なるが、安価なものなら900万円程度で導入できるという。

 マイクロソフト株式会社のサーバープラットフォームビジネス本部クラウド&アプリケーションプラットフォーム製品部でエグゼクティブプロダクトマネージャを務める北川剛氏は、同製品を「アプライアンスライク」と表現する。

 Fast Track Data Warehouseは、リレーショナルデータベース管理システム「SQL Server 2008 R2」にインテルアーキテクチャの汎用サーバ、そしてストレージなどを組み合わせたものであり、特殊な専用ハードウェアは一切使用していない。その結果、価格競争力のあるハードウェアで安価にシステムを構成できるというわけだ。

 ただし、ソフトウェアをDWH用途に向けて設定を最適化し、チューニングを済ませた形で提供している。具体的には、汎用サーバとストレージ、そしてSQL Server 2008 R2を組み合わせてDWHを構築するときに、最も高い性能を発揮するハードウェアを組み合わせ、ソフトウェアを設定し、データのロード方法も指定してある。そして機能の最適な組み合わせなどをあらかじめすべて設定した状態でユーザーに提供するのだ。

 そのため、迅速にDWHを導入できるというアプライアンスの良さも兼ね備えているのだ。北川氏は「汎用ハードウェアとアプライアンス、双方のいいとこ取りをした“アプライアンスライク”な製品がFast Track Data Warehouseだ」と言う。

 DWH向けの設定がどのようなものか、いくつか例を挙げて説明しよう。まずはディスク構成だ。Fast Track Data Warehouseでは、ディスク装置2基でRAID1を構成し、データを読み出す際には双方のディスクからデータを半分ずつ読み出すことにより高速化を図っている。また、こうした読み出しを可能にするために、データを書き込む際に、あらかじめデータを検索キーを基に並び替えた状態でロードするようにしてある。これで、データの読み出し性能を約2倍に高めることに成功しているという。

 さらに、データはすべて圧縮してディスクに保存する。これで、ディスクI/Oにかかる負荷をおよそ4分の1程度まで軽減できる。

 こうした設定を事前に施すことにより、特殊なハードウェアを一切使うことなく、汎用のハードウェアとソフトウェアの組み合わせだけで、SQL Server 2008 R2をそのままDWHで使用した場合に比べて、およそ8倍も性能が向上したという。こうしたチューニングや設定の知見こそが、同社がデータアレグロの買収によって得たものである。

 「こうした処理高速化の仕組みを説明すると、中には『何も工夫がないじゃないか?』という言う人もいる。しかし、特別な工夫はもともと要らない。高速化を実現するための機能はもともと汎用製品が備えているのだから、それをうまく組み合わせれば8倍程度の性能向上は十分達成できる。これまで汎用ハードウェアにSQL Serverを組み合わせたサーバをDWHとして使おうとしてチューニングに四苦八苦していたユーザーにとっては、チューニング済みのFast Track Data Warehouseを持ってくるだけで、処理性能を8倍まで上げられるというわけだ」(北川氏)

あらゆる分析ニーズに対応する「ハブ&スポーク」構成

 Fast Track Data WarehouseはSMP(対称型マルチプロセッシング)構成のアーキテクチャを採っており、また汎用ハードウェアのみを使っていることから、一般には小、中規模のDWH向けと見られている。しかし実際には、先述したように処理高速化のさまざまな設定やチューニングが施してあるので、比較的大規模なDWHにも十分に対応可能だという。

 ただし、近年ではMPP(超並列プロセッシング)アーキテクチャを採ったハイエンドなアプライアンス製品ならEDW(エンタープライズデータウェアハウス)を構築し、全社レベルですべてのデータを集約できると訴えるベンダも多い。その点、Fast Track Data Warehouseは、こうした大規模EDWの用途にはあまり適していない。しかし北川氏は、EDWにすべてのデータを一極集中させることが、必ずしも最適なシステムになるとは限らないと指摘する。

 「トランザクションデータをBIで分析するにしても、部署や職位によって必要とするデータの粒度は異なる。例えば小売業であれば、店舗の現場レベルなら、すべての商品ごとの売り上げデータを必要とするが、エリアマネジャーなら店舗ごと、商品カテゴリごとの数字があれば十分だろう。経営層ともなれば、個々の商品の詳細な売り上げデータなど、最も粒度の細かいトランザクションデータまで見る必要はない。結局、全社に共通のデータ粒度を決めるのはほぼ不可能で、実際は部門別で最適化するしかないと思う」(北川氏)

 もちろん、最も細かい粒度のものを含めたあらゆる粒度ですべてのデータを集約したEDWが構築できれば、すべての人のニーズに応えることができるかもしれない。しかし現実は、システムの構築に多大なコストが掛かり、運用するにも膨大な量のデータをロードしなくてはならず、結果としてすべての人のニーズを満足させる粒度のデータをすべて格納することは極めて困難になる。

 そこでマイクロソフトが提唱するのが、「ハブ&スポーク」というシステム構成だ。これは、各部門ごとにそれぞれの現場で必要とされるデータ粒度に応じたDWHをFast Track Data Warehouseで構築し、そこからさらに全社レベルの分析用途に必要な粒度の粗いデータを抽出し、中央にあるEDWに集約するという構成だ。各部門に配置するFast Track Data Warehauseが「スポーク」で、中央に位置するEDWが「ハブ」になるわけだ。こうした構成にすることによって、社内のさまざまな部門、職位にそれぞれ適した粒度のデータを提供でき、無理のないシステム運用が可能になるという。

図3

ハブ&スポーク構成にすることで、社内のあらゆる部門が必要とするデータを無理なく集められる

 「トップダウンでいきなりEDWを構築するやり方は、どこかで必ず破たんすると思う。データをうまく活用してBIなどの分析をするためにDWHは存在するものであり、すべてのデータを1カ所に集めることが目的ではない」(北川氏)

 ちなみに、ハブ&スポークのシステム構成は、一見するとデータマートの考え方に似ているように見えるが、データマートと部門別DWHはまったく異なるものだ。

 「部門ごとにFast Track Data Warehouseで構築するDWHは、BIの分析に必要な粒度のトランザクションデータをすべて持っている。条件を限定した要約データだけをまとめたデータマートとは根本的に異なる」(北川氏)

  1/2 次のページへ

Index
「アプライアンスライク」な構成で導入コストを低減
→
Page 1
汎用ハードウェアとSQL Server 2008で構成
あらゆる分析ニーズに対応する「ハブ&スポーク」構成

Page 2
MPPアーキテクチャを採用した大規模DWH
全方位で展開していくアプライアンス戦略



Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Database Expert 記事ランキング

本日月間