データウェアハウス最前線(5)

汎用ハードウェアでシェアードナッシングを実現

吉村 哲樹
2010/12/9

データロード処理も並列分散処理

 このように、特別なハードウェアを使わずにソフトウェアの機能だけでMPPシステムを構成し、高いスケーラビリティを実現しようというのがGreenplum Databaseの最大の特徴だ。さらに特徴として挙げられるのが、データ問い合わせ処理だけでなく、データのロード処理の性能もサーバを増やすことで向上させることができる点だという。

 「専用ハードウェアのアプライアンス製品では、データロードに使えるネットワークのポート数の制限などから、データロード処理の並列度はせいぜい2重化、3重化が限界。しかしGreenplum Databaseはデータロード用のネットワークを組めば、データベースのインスタンスの数だけ並列処理できる」(成田氏)

 Greenplum Databaseにデータをロードするにはまず、ロードしたいデータをETLなどで外部サーバに集める。そしてそのサーバ上に、「gdfdist」というGreenplum Databaseのデータロードを管理するソフトウェアをインストールしておく。さらに、そのサーバとGreenplum Databaseの各セグメントサーバの間を、ネットワークで接続する。

図3

データをロードするときも、複数あるセグメントサーバが並列で動作する

 このようにシステムを構成すれば、データロード時はすべてのセグメントサーバのすべてのプロセッサコアを総動員して、一気に並列処理でデータをロードする。例えば、96コアのシステムであれば、96のインスタンスが並列で動いて各セグメントサーバが一気にデータをロードする。このときはすべてのストレージにきれいに分散させることはせず、ロードできるサーバがどんどんデータをロードしていく。

 すべてのデータをロードしたら、今度は各プロセッサコアが管理しているディスク領域データを分散配置する。このときは、gNetの高度なパイプライン処理性能を生かして各セグメントサーバ間でデータを交換する。

Greenplum on Dellパッケージ

 以上で見てきたように、汎用ハードウェアの組み合わせにソフトウェアをインストールしてDWHシステムを構成するのがGreenplum Databaseの特徴だが、この方式には欠点もある。それは、システムの構築に時間と手間がかかってしまうことだ。データ量の見積もりに始まってハードウェアの選定、内部設計、チューニングと、システム構築のSI作業に要する時間と手間は決して無視できない。

 そこで東京エレクトロンデバイスでは、Greenplum Databaseとデルのハードウェア製品をあらかじめ組み合わせて提供する「Greenplum on Dellパッケージ」を提供している。あらかじめ同社で動作検証済みのソフトウェアとハードウェアの組み合わせをセットで提供することにより、ユーザー側でのシステム構築の手間を省略しようというものだ。

 「Greenplum Databaseをソフトウェアのみで提供すると、システムの構築には最低でも3カ月程度はかかる。しかしGreenplum on Dellパッケージなら、導入してすぐに運用を始められる」(成田氏)

 こう聞くと、他社製のアプライアンス製品と何ら変わらないように感じるだろうが、成田氏はこれはアプライアンスではなく、あくまでも「パッケージ」であることを強調する。

 「特殊な仕組みを使ったアプライアンス製品ではユーザーが中身をいじってはいけないことが多い。しかしGreenplum on Dellパッケージは、あくまでも汎用ハードウェアの組み合わせなので、導入後もユーザーが自由に拡張できる」(成田氏)

 なお、同パッケージの最小構成はマスターサーバ1台、セグメントサーバ2台から成り、最大3テラバイトまでのデータを投入可能だ(データ非圧縮時)。この構成での価格は、導入支援サービス込みで2200万円からとなっている。

 ちなみに、Greenplum Databaseのソフトウェアを単体で購入するときは、2種類のライセンス体系から好きな方を選べる。1つ目はプロセッサコア単位で課金するライセンスで、価格は1コア当たり200万円。もう1つは投入するデータ容量に応じて課金するもので、価格は1テラバイト当たり1050万円だ。データ容量は変わらないが、セグメントサーバの数を増やして性能向上を図りたいようなときは、追加ライセンスを購入する必要がない後者のライセンスが有利だ。

ソフトウェア中心の展開は変わらない

 すでに報道されている通り、Greenplum Databaseの開発元である米グリーンプラムは、大手ストレージベンダの米EMCが買収した。2010年9月からはEMCのData Computing Products部門に入った。そして、その翌月には米国でGreenplum Databaseを利用したアプライアンス製品「EMC Greenplum Data Computing Appliance」が登場している。

TEL
EMCからアプライアンスが登場しても、ソフトウェア中心の戦略は変わらないと語る住友氏

 東京エレクトロンデバイスでは今後も引き続き、これまでと同様にGreenplum Databaseの販売を日本国内で続けていくという。住友氏は、次のように説明する。

 「アプライアンス製品が登場した後も、ソフトウェア単体でのビジネスは従来通り続けていくとEMCはアナウンスしている。また、われわれが展開しているソフトウェア中心のビジネス方針についても、すでにEMCからは了承を得ている」(住友氏)

 さらに、将来のクラウドコンピューティング時代を見据えると、グリーンプラム製品がEMCの製品ラインアップに入ったことはメリットになるはずだと同氏はいう。

 「クラウドコンピューティングでは仮想化技術が重要な鍵を握る。その点EMCはVMwareを配下に持っている。グリーンプラムもこれまで『エンタープライズ・データ・クラウド』というキーワードで、クラウド環境におけるDWHの在り方を先取りした製品開発を進めてきた。Greenplum DatabaseとVMwareの仮想化技術を組み合わせることで、面白いシステムが生まれるのではないかと期待している。もちろんわれわれも、そうした動きにしっかり追随しながら、クラウド時代に向けた新しいビジネスを展開していきたいと考えている」(住友氏)

前のページへ 2/2  

Index
汎用ハードウェアでシェアードナッシングを実現
Page 1
汎用ハードウェアで動作するソフトウェア
MPPでシェアードナッシング
→ Page 2
データロード処理も並列分散処理
Greenplum on Dellパッケージ
ソフトウェア中心の展開は変わらない
【筆者プロフィール】
吉村 哲樹(よしむら てつき) 早稲田大学政治経済学部卒業後、メーカー系システムインテグレーターにてソフトウェア開発に従事。 その後、外資系ソフトウェアベンダでコンサルタント、IT系Webメディアで編集者を務めた後、現在はフリーライターとして活動中。



Database Expert フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Database Expert 記事ランキング

本日月間