Greenplum Databaseとの連携を説明
EMCはHadoopをどのように展開していくのか
2011/08/12
米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。
EMCの提供するMapReduceアルゴリズム実装「Greenplum HD」は、既報のとおり無償の「Community Edition」、有償でサポートを含む「Enterprise Edition」、そしてハードウェアとソフトウェアを構成済みのアプライアンス「Greenplum HD Data Computing Appliance」の3つの形で提供される。
Greenplum HDは、MapR Technologiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3〜5倍のパフォーマンス向上が見込めるという。また、NameNode、JobTrackerを冗長化し、可用性を高めるとともに、システム管理ツールにより管理性を向上する。Apache Hadoopとの互換性を100%確保するという。
EMCジャパンのデータ・コンピューティング事業本部 テクノロジー&プロフェッショナルサービス部 部長 仲田聰氏によると、初期段階では、すでにApache Hadoopを導入済みの企業が、可用性やパフォーマンス、サポート環境の改善のため、Greenplum HD Enterprise Editionに乗り換えるケースがほとんどだろうという。Apache Hadoopと100%互換のGreenplum HDは、当然ながらHadoopに適しているとされるあらゆる用途に活用できる。
Greenplum DatabaseとHadoopの関係は
だが、EMCが「Greenplum」の名を冠してHadoopディストリビューションを提供するもう1つの理由は、既存製品「Greenplum Database」とともに、今後拡大するデータウェアハウスニーズを取り込むことにある。
米EMCは、Greenplum Databaseを開発・販売してきたGreenplumを2010年7月に買収した。Greenplum DatabaseはPostgreSQLインスタンスを並列に動かすスケールアウト型の処理プロセスによる高速化が特徴。EMCジャパンでは、競合製品に比べ、データローディングの速度が速いのが特徴の1つだと強調する。
スケールアウト的な構成をとる他社製品は、データローディングの際にマスタサーバがセグメントサーバへのデータの振り分けを一手に引き受けるため、マスタサーバが処理性能のボトルネックとなる。
一方Greenplum Databaseでは、マスタサーバがデータローディングに実質的に関与せず、すべてのセグメントサーバが、同時に分散協調してローディングを行うため、セグメントサーバの台数を増やせば、リニアに性能が向上する。シェアドナッシング(ストレージをはじめ、ITコンポーネントを何も相互に共有しない)で、処理が完全に並列化される。
Greenplum Databaseのもう1つの大きな特徴は、ソフトウェアで完結した製品であること。他社のデータウェアハウス製品では、最近ハードウェアに工夫を施して処理の高速化を図るケースが見られる。しかしGreenplumは汎用的なサーバと内蔵ハードディスクを用い、並列処理でパフォーマンスを稼ぐようになっている。Greenplum Database製品ファミリには、ハードウェア+ソフトウェアのアプライアンス製品「Greenplum Data Computing Appliance」もあるが、この製品も汎用的なハードウェアしか使っていない。
EMCでは、Greenplum Databaseを従来通り構造化データの分析用途、そしてGreenplum HDは各種のログやテキスト情報、画像など非構造化データの分析用途に推進していく。同社では、Greenplum DatabaseとGreenplum HD/Apache Hadoopとの高速なデータのやり取りが可能な点も強調している。前述のGreenplumが備える並列ロード/アンロード機能を活用し、Greenplum DBのマスタサーバとHadoopのネームノードがメタデータをやり取りできる一方、Greenplum DBのセグメントサーバとHadoopのデータノードが直接データのやり取りを行えるという。
上記のような機能を活用し、Greenplum HDで処理した非構造化データを構造化データとしてGreenplum Databaseに渡し、Greenplum Database自体が処理する構造化データと統合して、BIツールなどから活用する仕組みがつくれるという。なお、Greenplum HDをアプライアンス化した製品「Greenplum HD Data Computing Appliance」は、Greenplum HDとGreenplum Databaseの双方を搭載したものとなる。
データ分析でのIT部門の役割を変えるChorus
EMCジャパンは8月9日、あわせて「Greenplum Chorus」についても説明した。少数のユーザーには先行提供中のようだが、一般向け提供開始の予定は2011年中という。
Chorusはデータ分析におけるユーザー部門とIT部門の関係を変えるようなツールだ。これまでのような、ユーザー側の要件定義に基づいてIT部門がデータベースのスキーマ設計を行う手法だと、準備に時間が掛かりすぎるケースが多い。Chorusではこれを解消するため、ユーザーがセルフサービスで仮想的なデータマートをプロビジョニングできるようにする機能を備える。これにより、業務ニーズにIT機能が即座に応えられるようにする。また、SNS的に、ユーザーが相互にデータの見方を共有できる機能も提供するという。Chorusは当初、データソースとしてGreenplumのみに対応するが、将来的にはさまざまなデータソースに対応する予定という。
情報をお寄せください:
TechTargetジャパン
- CloudStack 3.0の新機能 (2012/5/17)
CloudStackは2012年2月末にメジャーバージョンアップした。管理インターフェイスなどの機能強化点を紹介する - AWSとAzure、性能と運用機能を比較する (2012/4/11)
いよいよAWSとAzureのパフォーマンスを比較。限定的な条件で行ったベンチマークなので、取り扱い注意! - CloudStackをAPIで操作する (2012/4/9)
CloudStackのAPIを使えば、アプリケーション、外部管理システム、管理サービスから、CloudStackを操作できる - 「OpenFlowの父」が語る、OpenFlowとSDNの真実 (2012/3/21)
OpenFloは誤解され、過剰に期待されているのではないか。OpenFlowを生みだした1人に、SDNやネットワーク仮想化との関係を含めて聞いた
|
|
キャリアアップ
スポンサーからのお知らせ
- - PR -


