Greenplum Databaseとの連携を説明

EMCはHadoopをどのように展開していくのか

2011/08/12

 米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。

 EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。

 Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3〜5倍のパフォーマンス向上が見込めるという。また、NameNode、JobTrackerを冗長化し、可用性を高めるとともに、システム管理ツールにより管理性を向上する。Apache Hadoopとの互換性を100%確保するという。

 EMCジャパンのデータ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏によると、初期段階では、すでにApache Hadoopを導入済みの企業が、可用性やパフォーマンス、サポート環境の改善のため、Greenplum HD Enterprise Editionに乗り換えるケースがほとんどだろうという。Apache Hadoopと100%互換のGreenplum HDは、当然ながらHadoopに適しているとされるあらゆる用途に活用できる。

Greenplum DatabaseとHadoopの関係は

 だが、EMCが「Greenplum」の名を冠してHadoopディストリビューションを提供するもう1つの理由は、既存製品「Greenplum Database」とともに、今後拡大するデータウェアハウスニーズを取り込むことにある。

 米EMCは、Greenplum Databaseを開発・販売してきたGreenplumを2010年7月に買収した。Greenplum DatabaseはPostgreSQLインスタンスを並列に動かすスケールアウト型の処理プロセスによる高速化が特徴。EMCジャパンでは、競合製品に比べ、データローディングの速度が速いのが特徴の1つだと強調する。

 スケールアウト的な構成をとる他社製品は、データローディングの際にマスタサーバがセグメントサーバへのデータの振り分けを一手に引き受けるため、マスタサーバが処理性能のボトルネックとなる。

 一方Greenplum Databaseでは、マスタサーバがデータローディングに実質的に関与せず、すべてのセグメントサーバが、同時に分散協調してローディングを行うため、セグメントサーバの台数を増やせば、リニアに性能が向上する。シェアドナッシング(ストレージをはじめ、ITコンポーネントを何も相互に共有しない)で、処理が完全に並列化される。

 Greenplum Databaseのもう1つの大きな特徴は、ソフトウェアで完結した製品であること。他社のデータウェアハウス製品では、最近ハードウェアに工夫を施して処理の高速化を図るケースが見られる。しかしGreenplumは汎用的なサーバと内蔵ハードディスクを用い、並列処理でパフォーマンスを稼ぐようになっている。Greenplum Database製品ファミリには、ハードウェア+ソフトウェアのアプライアンス製品「Greenplum Data Computing Appliance」もあるが、この製品も汎用的なハードウェアしか使っていない。

greenplum01.jpg Greenplum HDとGreenplum Databaseの連携例

 EMCでは、Greenplum Databaseを従来通り構造化データの分析用途、そしてGreenplum HDは各種のログやテキスト情報、画像など非構造化データの分析用途に推進していく。同社では、Greenplum DatabaseとGreenplum HD/Apache Hadoopとの高速なデータのやり取りが可能な点も強調している。前述のGreenplumが備える並列ロード/アンロード機能を活用し、Greenplum DBのマスタサーバとHadoopのネームノードがメタデータをやり取りできる一方、Greenplum DBのセグメントサーバとHadoopのデータノードが直接データのやり取りを行えるという。

 上記のような機能を活用し、Greenplum HDで処理した非構造化データを構造化データとしてGreenplum Databaseに渡し、Greenplum Database自体が処理する構造化データと統合して、BIツールなどから活用する仕組みがつくれるという。なお、Greenplum HDをアプライアンス化した製品「Greenplum HD Data Computing Appliance」は、Greenplum HDとGreenplum Databaseの双方を搭載したものとなる。

データ分析でのIT部門の役割を変えるChorus

 EMCジャパンは8月9日、あわせて「Greenplum Chorus」についても説明した。少数のユーザーには先行提供中のようだが、一般向け提供開始の予定は2011年中という。

greenplum02.jpg Chorusはビジネスデータ分析におけるセルフサービスを実現する

 Chorusはデータ分析におけるユーザー部門とIT部門の関係を変えるようなツールだ。これまでのような、ユーザー側の要件定義に基づいてIT部門がデータベースのスキーマ設計を行う手法だと、準備に時間が掛かりすぎるケースが多い。Chorusではこれを解消するため、ユーザーがセルフサービスで仮想的なデータマートをプロビジョニングできるようにする機能を備える。これにより、業務ニーズにIT機能が即座に応えられるようにする。また、SNS的に、ユーザーが相互にデータの見方を共有できる機能も提供するという。Chorusは当初、データソースとしてGreenplumのみに対応するが、将来的にはさまざまなデータソースに対応する予定という。

(@IT 三木泉)

情報をお寄せください:

Server & Storage フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

ソリューションFLASH

「ITmedia マーケティング」新着記事

「ECプラットフォーム」 売れ筋TOP10(2021年5月)
一部の都道府県では、新型コロナ第4波のための緊急事態宣言が続いています。オンラインシ...

Brightcove、放送局レベルの品質でライブ配信イベントを実現する「Virtual Events for Business」を発表
企業やチーム単位で、安全かつ信頼性の高い放送品質のライブ配信イベントを社内外に配信。

売れる仕組みは「AI」で作る(無料eBook)
「ITmedia マーケティング」では、気になるマーケティングトレンドをeBookにまとめて不定...