PFIとNTTレゾナントが共同調査で報告

Hadoopは耐障害性に課題があるが実用性十分

2008/08/25

 Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。

 HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注目されている(採用実績)。

 PFIとNTTレゾナントは、GFSとMapReduceの公開論文を比較対象とすることで、Hadoopに実装されている機能を調査した。また、ソースコード解析による実装方式の調査と、実験による基本性能の調査も行ったという。

 調査の結果、HadoopはGFSの論文で言及されている主要な機能を備えていることが分かったという。逆にHadoopのみが持つ機能として、Java以外の言語でMapReduceプログラムを記述できる「HadoopStreaming」や、MapReduceプログラム全体で使うファイルを簡単に扱う分散キャッシュ機能などがあるという。

 信頼性についてはHadoopで実装されていない機能があり、レポートは「信頼性には課題を残している」としている。具体的には、細かく分けられたデータの塊であるチャンク(Hadoopではブロック)について、一定のタイミングでバックグラウンドでチェックサムを取りファイルが壊れていないことを保証する自動チェックサム検査がHadoopで実装されていなかったり、分散ノードを管理するマスターサーバ(NameNode)が異常終了した場合、Hadoopでは手動で復旧させる必要があることなど、HDFS(Hadoop Distributed Filesystem)ではGFSほど耐障害性の機能が提供されていないという。Hadoopではディスク使用量が偏らないようチャンクを再配置するバランシング作業も自動化されていない。

 性能評価については、基本的なリード/ライトの速度測定、100GBのデータのソートなどを行い、いずれも12台のサーバで台数に対しておおむねリニアにスループットが向上することを確認。

 こうしたことから、レポートでは「Hadoopの実用性は十分」とし、「オープンソース分散システムの利用検討は、大規模なデータ処理を低コストで実現するための1つの手段として、企業にとっても重要な選択肢」と結論づけている。

(@IT 西村賢)

情報をお寄せください:

Java Agile フォーラム 新着記事

キャリアアップ

- PR -

注目のテーマ

- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

社名に「令和」を含む企業は全国で何社ある?――東京商工リサーチ調べ
即位礼正殿の儀を前に新設法人334社、社名変更で97社の「令和」企業が生まれています。

ブランドは信頼に値するか? 「イエス」は日本ではわずか38%――エデルマン・ジャパン調査
エデルマン・ジャパンは、世界8カ国、1万6000人を対象に実施した消費者意識調査の日本に...

「ラグビーワールドカップ2019」がおじさんの心を動かす――CCC調査
「ラグビーワールドカップ2019」が日本で開催されたことで日本人のラグビー愛にどう変化...