情報爆発にいかに対応するか情報マネージャとSEのための「今週の1冊」(40)

市場競争を勝ち抜くためのポイントは、過去や現状をいかに詳細に把握、可視化できるかにある。“情報爆発”が起きている今、効率的な情報管理・処理の方策を考えることは、企業の命運が懸かった一大テーマと言える。

» 2011年04月26日 12時00分 公開
[@IT情報マネジメント編集部,@IT]

ビッグデータを征すクラウドの技術 Hadoop&NoSQL

ALT ・著=ASCII.technologies編集部
・発行=アスキー・メディアワークス
・2011年4月
・ISBN-10:4048705741
・ISBN-13:978-4048705745
・2300円+税
※注文ページへ

 近年、日々大量に生成・蓄積される情報の管理・処理が企業の一大課題となっている。めまぐるしく変わる市場環境、顧客ニーズに追従するためには、自社の業務データ、顧客データなどを迅速に処理しなければならない。特に“情報爆発”とも形容されるほど情報量が増大している今、迅速な処理を実現する上ではITシステム側にも新しい仕組みが求められている。

 そうした中、注目を集めているのがHadoopとNoSQLだ。特に昨今は、Webサービス企業を中心に採用例が急増していることも手伝って、Hadoopが話題に上ることが増えたのではないだろうか。

 周知の通り、Hadoopは大規模なデータを複数のコンピュータ上で分散処理するためのオープンソースソフトウェアだ。米グーグルが開発した2つの基盤技術――プログラムの処理を分散して実行する「MapReduce」と、複数のマシンにデータを分散配置して管理する分散ファイルシステム「GFS(Google File System)」――をオープンソースで実装したもので、大量データを細かく分割し、数千台クラスのサーバで並列的に処理を行い、結果を集約することで高速処理を実現する。

 これまでは導入・運用に高い技術と知見が求められるため、米グーグルや米ヤフーなど採用企業は一部にとどまっていた。だが、日本でも2009年辺りから、楽天がEコマースサイトでレコメンド商品を表示するための解析処理に活用したり、NTTデータが渋滞情報を可視化するシステムに採用したりと、徐々にではあるが着実に浸透しつつある。

 そうした状況に対応し、幅広い層に向けて、HadoopとNoSQLの仕組みをあらためて基礎から丁寧に解説しているのが、本書「ビッグデータを征すクラウドの技術 Hadoop&NoSQL」である。技術解説を中心としながら、CIOやIT部長、経営企画部のスタッフなどなら押さえておきたい“ビジネス上のメリット”にも触れるなど、 ムックの体裁を生かしたバリエーション豊かな構成としている点が特徴だ。

 興味深いのは、大量情報の処理・分析という特性から、HadoopはBIに利用される例が多い中、本書では“処理・分析のリアルタイム性”に着目し、「基幹バッチ処理にHadoopを利用する」という章を設けている点だ。本章の筆者、ウルシステムズ 取締役の神林飛志氏はバッチ処理には「10時間を超えるものもある」ことを指摘。よって、業務サイクルに合わせて夜間に実行されているが、「実行中に異常が生じてリカバリーが翌朝に持ち越されれば、丸一日が無駄になることも」あれば、「エラー発生から時間が経過するほど、解決までのコストが高く」なってしまう、加えて「朝の3時にバッチエラー」が起これば、運用管理者が「電話で叩き起こされるような理不尽な事態」も生じてしまうことなどを指摘する。

 だが、「バッチの運用スピードを劇的に向上できれば、業界全体の非効率を解決する糸口になる」し、運用管理者の生活や健康も守られる――神林氏は、まずこのようにHadoopの意義を説いた上で、「導入への道筋」として、その技術的要件や、 同社が開発した“Hadoopを使って基幹システムのバッチを高速処理するためのソフトウェアフレームワーク”である「Asakusa Framework」などを紹介するのだ。バッチ処理関連の課題は多くの企業に共通するものだけに、以上の指摘によってHadoopの見え方が変わる向きもあるのではないだろうか。

 楽天の事例も見逃せない。同社が開発したのは、約3万4000店ある店舗を横断して「楽天市場の全商品からお勧めの商品を表示する」機能だ。よって、 「楽天市場全体の購買データ」が解析対象となるわけだが、開発当時、テストとして約2億件の購買データを解析用プログラムに処理させたところ、数日間もかかってしまった。そこで「Hadoopで簡易的に処理を実装して試してみた」ところ、数時間で処理できると分かり、解析処理機能を「MapReduceで再実装した」のだという。

 なお、楽天では、このほかにも広告の効果測定処理や、売上順位を公表する「楽天ランキング」など、さまざまな用途にHadoopを活用しているという。そうした解説の中で最も印象的なのは、「Hadoopは、まだまだ進化中のソフトウェア」であり、「利用しているエンジニアは、ベストプラクティスを模索しながら使っている」というひと言だ。

 むろん、これは新しいテクノロジが登場するたびに繰り返されてきたことではある。だが、たとえ複雑なものでも、いち早く導入した企業が先駆者利益とでも呼ぶべき大きなメリットを享受していることは、最近では仮想化技術の例を見ても明らかだ。それを考えると、「新たなものに進んで向き合えるか否かが、企業の勝敗を分かつ大きなポイントになる」ことを、今あらためて自覚することが大切なのではないだろうか。特に「ベストプラクティスを模索」する上で最も重要なのは、言うまでもなく“ビジネスの視点”だ。

 その点、技術系のムックや雑誌、Webは「トレンドを知る」という意味ではビジネスサイド、あるいはマネジメント層の人間が読んでも有用なものが多い。本書も基本的には技術者向けの内容としているが、その基礎を知る、意義を学ぶ、可能性を考えるという意味では大いに役立つはずである。情報爆発への対処法を考える上で、技術者との共通認識、共通言語を開拓する意味でも、ぜひ手に取ってみてはいかがだろうか。


この新連載で紹介した書籍は、順時、インデックスページに蓄積していきます(ページ上部のアイコンをクリックしてもインデックスページに飛ぶことができます)。旧ブックガイドのインデックスはこちらをご覧ください。


「情報マネージャとSEのための「今週の1冊」」バックナンバー

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ