Greenplum Databaseとの連携を説明

EMCはHadoopをどのように展開していくのか

2011/08/12

 米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。

 EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。

 Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3〜5倍のパフォーマンス向上が見込めるという。また、NameNode、JobTrackerを冗長化し、可用性を高めるとともに、システム管理ツールにより管理性を向上する。Apache Hadoopとの互換性を100%確保するという。

 EMCジャパンのデータ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏によると、初期段階では、すでにApache Hadoopを導入済みの企業が、可用性やパフォーマンス、サポート環境の改善のため、Greenplum HD Enterprise Editionに乗り換えるケースがほとんどだろうという。Apache Hadoopと100%互換のGreenplum HDは、当然ながらHadoopに適しているとされるあらゆる用途に活用できる。

Greenplum DatabaseとHadoopの関係は

 だが、EMCが「Greenplum」の名を冠してHadoopディストリビューションを提供するもう1つの理由は、既存製品「Greenplum Database」とともに、今後拡大するデータウェアハウスニーズを取り込むことにある。

 米EMCは、Greenplum Databaseを開発・販売してきたGreenplumを2010年7月に買収した。Greenplum DatabaseはPostgreSQLインスタンスを並列に動かすスケールアウト型の処理プロセスによる高速化が特徴。EMCジャパンでは、競合製品に比べ、データローディングの速度が速いのが特徴の1つだと強調する。

 スケールアウト的な構成をとる他社製品は、データローディングの際にマスタサーバがセグメントサーバへのデータの振り分けを一手に引き受けるため、マスタサーバが処理性能のボトルネックとなる。

 一方Greenplum Databaseでは、マスタサーバがデータローディングに実質的に関与せず、すべてのセグメントサーバが、同時に分散協調してローディングを行うため、セグメントサーバの台数を増やせば、リニアに性能が向上する。シェアドナッシング(ストレージをはじめ、ITコンポーネントを何も相互に共有しない)で、処理が完全に並列化される。

 Greenplum Databaseのもう1つの大きな特徴は、ソフトウェアで完結した製品であること。他社のデータウェアハウス製品では、最近ハードウェアに工夫を施して処理の高速化を図るケースが見られる。しかしGreenplumは汎用的なサーバと内蔵ハードディスクを用い、並列処理でパフォーマンスを稼ぐようになっている。Greenplum Database製品ファミリには、ハードウェア+ソフトウェアのアプライアンス製品「Greenplum Data Computing Appliance」もあるが、この製品も汎用的なハードウェアしか使っていない。

greenplum01.jpg Greenplum HDとGreenplum Databaseの連携例

 EMCでは、Greenplum Databaseを従来通り構造化データの分析用途、そしてGreenplum HDは各種のログやテキスト情報、画像など非構造化データの分析用途に推進していく。同社では、Greenplum DatabaseとGreenplum HD/Apache Hadoopとの高速なデータのやり取りが可能な点も強調している。前述のGreenplumが備える並列ロード/アンロード機能を活用し、Greenplum DBのマスタサーバとHadoopのネームノードがメタデータをやり取りできる一方、Greenplum DBのセグメントサーバとHadoopのデータノードが直接データのやり取りを行えるという。

 上記のような機能を活用し、Greenplum HDで処理した非構造化データを構造化データとしてGreenplum Databaseに渡し、Greenplum Database自体が処理する構造化データと統合して、BIツールなどから活用する仕組みがつくれるという。なお、Greenplum HDをアプライアンス化した製品「Greenplum HD Data Computing Appliance」は、Greenplum HDとGreenplum Databaseの双方を搭載したものとなる。

データ分析でのIT部門の役割を変えるChorus

 EMCジャパンは8月9日、あわせて「Greenplum Chorus」についても説明した。少数のユーザーには先行提供中のようだが、一般向け提供開始の予定は2011年中という。

greenplum02.jpg Chorusはビジネスデータ分析におけるセルフサービスを実現する

 Chorusはデータ分析におけるユーザー部門とIT部門の関係を変えるようなツールだ。これまでのような、ユーザー側の要件定義に基づいてIT部門がデータベースのスキーマ設計を行う手法だと、準備に時間が掛かりすぎるケースが多い。Chorusではこれを解消するため、ユーザーがセルフサービスで仮想的なデータマートをプロビジョニングできるようにする機能を備える。これにより、業務ニーズにIT機能が即座に応えられるようにする。また、SNS的に、ユーザーが相互にデータの見方を共有できる機能も提供するという。Chorusは当初、データソースとしてGreenplumのみに対応するが、将来的にはさまざまなデータソースに対応する予定という。

(@IT 三木泉)

情報をお寄せください:

Server & Storage フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

ソリューションFLASH

「ITmedia マーケティング」新着記事

社会人1年目と2年目の意識調査2024 「出世したいと思わない」社会人1年生は44%、2年生は53%
ソニー生命保険が毎年実施している「社会人1年目と2年目の意識調査」の2024年版の結果です。

KARTEに欲しい機能をAIの支援の下で開発 プレイドが「KARTE Craft」の一般提供を開始
サーバレスでKARTEに欲しい機能を、AIの支援の下で開発できる。

ジェンダーレス消費の実態 男性向けメイクアップ需要が伸長
男性の間で美容に関する意識が高まりを見せています。カタリナ マーケティング ジャパン...