Greenplum HD EEを国内販売開始
基幹バッチへのHadoop適用を進めるEMCの戦略
2012/01/26
EMCジャパンが1月19日に国内販売を開始した「Greenplum HD Enterprise Edition(EE)」とは、Apache Hadoopの一部を書き直すことで信頼性と速度を向上したMapReduce製品だ。米ベンチャーのMap R Technologiesによる製品のOEMで、EMCは同社のGreenplum製品群の一部として取り込み、販売パートナーと協力してサポートを提供している。Webサービス、ビックデータ解析に加え、企業の基幹系バッチ処理におけるMap Reduceの活用を意図している。
この製品ではまず信頼性向上のための工夫が施されている。2011年9月に国内で同製品を説明した米MapRのチーフアプリケーションアーキテクト、テッド・ダニング(Ted Dunning)氏によると、「すべてのコンポーネントが冗長化され、いつでも再起動できる。スナップショットでどの時点からもリカバリすることができる」。Greenplum HDでは、ネームノード(ファイルシステムのメタ情報管理)がすべてのデータ処理ノードに分散配置される。また、MapReduceのマスタサーバであるJobTrackerも冗長化されている。スナップショットでは差分データをファイルシステム上で維持することにより、データコピーなどの必要なしに復旧が可能。
高速性に関しては、ファイルシステムをC/C++で書き直すことにより、Javaのオーバーヘッドと、ガベージコレクションの影響を排除したという。また、ファイルシステム自体が圧縮機能を備えているため、アプリケーションから意識することなくストレージ消費量を減らすことができると同時に、I/O性能を向上できる。また、ロック競合、アプリケーションスレッド競合を排除することで、並列処理性能を向上しているという。
EMCでは、上記のような信頼性、高速性機能は、必要なサーバ機の台数を減らすことにも寄与、コスト低減効果があるとしている。
さらに、Greenplum HD EEではファイルシステムをNFSで読み書きできる。このため、例えばWebサーバのログデータを直接NFSで書き込んでそのままHadoop処理するなど、使い勝手が増すという。
Asakusa Frameworkとのタッグで基幹バッチ処理対応へ
前述のとおり、Greenplum HD EEの適用領域はWebサービス、ビックデータ解析、企業の基幹系バッチ処理の3つ。EMCジャパンは基幹バッチ処理への適用に関し、Hadoopを基幹バッチ処理に適用するためのオープンソース・フレームワーク「Asakusa Framework」の開発にかかわってきたノーチラス・テクノロジーズと協業、両社の製品を組み合わせた「Enterprise Hadoop」開発運用ソリューションを共同で提供していくと発表している。
ノーチラスによると、従来のHadoopは基幹バッチの高速化に大きく貢献できるが、ハードルも高い。基幹バッチ処理ではデータの種類が多く、データフローが複雑というのがその理由。また、従来のHadoopでは基幹システムとの透過的な接続が行える仕組みがないのが欠点という。
Asakusa Frameworkでは、Hadoopそのものに詳しくなくとも開発が可能で、DSLにより基幹システムからのデータ取り込みを記述できる。これをGreenplum HD EEと組み合わせることにより、基幹バッチに求められる環境を、高度なサポートとともに提供できるとしている。
関連記事
情報をお寄せください:
TechTargetジャパン
- CloudStack 3.0の新機能 (2012/5/17)
CloudStackは2012年2月末にメジャーバージョンアップした。管理インターフェイスなどの機能強化点を紹介する - AWSとAzure、性能と運用機能を比較する (2012/4/11)
いよいよAWSとAzureのパフォーマンスを比較。限定的な条件で行ったベンチマークなので、取り扱い注意! - CloudStackをAPIで操作する (2012/4/9)
CloudStackのAPIを使えば、アプリケーション、外部管理システム、管理サービスから、CloudStackを操作できる - 「OpenFlowの父」が語る、OpenFlowとSDNの真実 (2012/3/21)
OpenFloは誤解され、過剰に期待されているのではないか。OpenFlowを生みだした1人に、SDNやネットワーク仮想化との関係を含めて聞いた
|
|
キャリアアップ
スポンサーからのお知らせ
- - PR -



