PFIとNTTレゾナントが共同調査で報告
Hadoopは耐障害性に課題があるが実用性十分
2008/08/25
Preferred Infrastructure(PFI)は8月25日、NTTレゾナントと共同で行った、オープンソースの分散システム「Hadoop」(ハドゥープ)に関する調査を行い、その解析資料を公開した。
HadoopはApacheの1プロジェクトとして開発が進められているJavaで書かれたソフトウェアで、グーグルの大規模データ処理基盤技術である「Google File System」(GFS)、「MapReduce」をオープンソースで実装したもの。多数のサーバを使って大規模なデータ処理が行える。Hadoopへの貢献度の高さで知られる米ヤフーは2008年2月19日に、1万台のLinuxクラスタを使ったHadoopシステムを発表。5PBのディスクストレージを使い、Web検索用のデータを作成しているという。ヤフーのほか、Facebook、IBMなど採用例が増えており、注目されている(採用実績)。
PFIとNTTレゾナントは、GFSとMapReduceの公開論文を比較対象とすることで、Hadoopに実装されている機能を調査した。また、ソースコード解析による実装方式の調査と、実験による基本性能の調査も行ったという。
調査の結果、HadoopはGFSの論文で言及されている主要な機能を備えていることが分かったという。逆にHadoopのみが持つ機能として、Java以外の言語でMapReduceプログラムを記述できる「HadoopStreaming」や、MapReduceプログラム全体で使うファイルを簡単に扱う分散キャッシュ機能などがあるという。
信頼性についてはHadoopで実装されていない機能があり、レポートは「信頼性には課題を残している」としている。具体的には、細かく分けられたデータの塊であるチャンク(Hadoopではブロック)について、一定のタイミングでバックグラウンドでチェックサムを取りファイルが壊れていないことを保証する自動チェックサム検査がHadoopで実装されていなかったり、分散ノードを管理するマスターサーバ(NameNode)が異常終了した場合、Hadoopでは手動で復旧させる必要があることなど、HDFS(Hadoop Distributed Filesystem)ではGFSほど耐障害性の機能が提供されていないという。Hadoopではディスク使用量が偏らないようチャンクを再配置するバランシング作業も自動化されていない。
性能評価については、基本的なリード/ライトの速度測定、100GBのデータのソートなどを行い、いずれも12台のサーバで台数に対しておおむねリニアにスループットが向上することを確認。
こうしたことから、レポートでは「Hadoopの実用性は十分」とし、「オープンソース分散システムの利用検討は、大規模なデータ処理を低コストで実現するための1つの手段として、企業にとっても重要な選択肢」と結論づけている。
関連リンク
関連記事
情報をお寄せください:
TechTargetジャパン
- EclipseでScalaプログラミングを始めるための基礎 (2012/2/10)
概要や5つの特徴を紹介し、開発環境を構築して対話型実行環境「REPL」やEclipse上でHello Worldを実行します - 並列分散処理の常識をHadoopファミリから学ぶ (2012/2/8)
並列分散処理の課題やHadoopの長所/短所、そして短所を補うHadoop関連プロジェクトの構成や概要などを簡単に紹介 - WebLogicサーバ最新版「12c」の気になる4つの特徴 (2012/1/31)
久々にメジャーアップグレードしたJavaアプリケーションサーバについて、製品担当者に軽量インストーラなどの特徴を聞いた - GitHubをもっとソーシャルに使いこなすための7つ道具 (2012/1/23)
ソースコードホスティングのGitHub周辺で便利な新サービスが続々登場しているので、まとめて紹介しよう。特に連動クラウド「fluxflex」が注目だ
キャリアアップ
スポンサーからのお知らせ
- - PR -
イベントカレンダー
- - PR -
