第4回　ビッグデータ時代のデータ管理とは：「攻めのIT」時代のストレージの基礎知識

今回は、ビッグデータに関連して、「データレイク」という考え方、データの「重力」というもの、データの配置・運用ポリシーのあり方などにつき、解説します。

» 2014年12月16日 19時00分公開

[三木泉，＠IT]

　「ビッグデータ」は、単なるうたい文句を超えて広がりつつあります。これは、「ITが、さまざまな産業における事業活動にとって、不可欠な役割を果たせる可能性が生まれてきた」という認識が背景になっています。

　データは、一般企業の事業活動とITを結び付ける、よいきっかけになります。例えば、重機に搭載した各種のセンサーから、データを移動体通信経由で逐次吸い上げ、これを分析して故障を未然に防ぐなど、付加価値の高いアフターサービスを展開できる可能性が生まれてきたのです。

　ある回転寿司店舗チェーンでは、回転寿司の皿にセンサーをつけておき、これを活用して曜日や時間帯に応じた寿司ネタの販売実績、内訳などを把握、これをネタの廃棄数の減少や、メニュー開発に役立てています。

　このような形でビッグデータの活用が広まってくると、データ管理はどのように変わってくるのでしょうか？扱うデータの増加量も、そのデータがどこから来るかも予測しにくいケースが増えてきます。データが大量になると、データ管理のコスト効率は重要なテーマとなってきます。一方、データによっては、セキュリティおよび保護に関する要求が高いものがあり得ます。こうした場合、コスト効率だけを追求するわけにもいきません。また、「ビッグデータ」とはいっても、社内の製造拠点など、比較的少数の拠点から送られてきたデータを扱うケースもあります。データ量が十分予測できる場合もあるのです。

　結局のところ、ビッグデータ時代のデータ管理で難しいのは、扱うデータの性質や振る舞いがアプリケーション次第だということにあります。とはいえ、徐々に解決策が生み出されつつあります。下記に、その例をいくつかご紹介します。繰り返しますが、これらはいずれも、全ての企業にとって適切な解決策だとはいえません。

・「データレイク」に多様なデータを集約する

　社内あるいはクラウドサービス上に、オブジェクトデータベースを配置し、これにビッグデータ関連のあらゆるデータをいったん集めるという考え方があります。これが「データレイク」、つまりデータの湖です。これは、「データは実質的に元の形式を維持したまま、とりあえずデータレイクに置いておき、必要に応じて問い合わせや、処理を適用すべきだ」という思想に基づいています。

　例えば、ビッグデータを使って何らかのサービスを展開する際に、収集する情報全てを活用したサービスを、最初からフルに提供できるとは限りません。こうしたときに、収集できるデータは確保しておき、サービスの拡充に従って分析項目を広げていくなどが考えられます。

・場所を超えたアクセスを実現する

　ビッグデータの広がりとともに、「センサーなどからのデータは、クラウドサービス上に置きたいが、社内のデータと同じようにアクセスできるようにしたい」「社内の複数拠点のデータに、自動的に中央拠点からアクセスできるようにしたい」といったニーズが高まってくることが考えられます。従来のストレージについての考え方からすれば、「データの遠隔複製をすればいいではないか」ということになるかもしれませんが、複雑な設定と莫大なコストが掛かってしまう可能性があります。

　このジレンマを解決できそうなソリューションが、徐々に登場しつつあります。これは例えば、クラウド上のストレージと社内のストレージを、あたかも1つのストレージのように利用できることを可能にするものです。データは必ずしも物理的に移動しません。ある拠点のストレージにあるデータのインデックス情報を、他の拠点のストレージのインデックス情報と統合することで、必要な時にだけ実データを遠隔拠点に取りにいくような仕組みが作れます。また、データのキャッシングによって、同じ拠点のユーザーが一度アクセスした遠隔拠点のデータがローカルに置かれることにより、快適にアクセスできるといったメリットが実現できる可能性もあります。

・場所を超えて、一括のデータ管理ポリシーを適用する

　複数のクラウドサービスや商用データセンター、あるいは複数の社内拠点に散在するデータに対し、その種類や重要度に応じて、一貫したデータ管理ポリシーを適用したいというケースも出てきます。

　こうしたニーズに応えるべく、複数のストレージ製品／ソフトウェアに対して、データに応じて同一の保護／可用性維持機能、パフォーマンス維持機能、セキュリティ機能を適用できるような世界を目指し、技術が進化しつつあります。

　こうした機能の延長線上に、データの自動配置機能の実現が考えられます。これは、現在主要なストレージ製品が搭載しているデータの自動階層化管理機能を、内容、適用対象の両面で拡張するものとも表現できます。

　現在のストレージにおける自動階層化管理機能は、アクセス頻度や求められるパフォーマンスに応じ、データをSSD、SAS HDD、SATA HDDのいずれかに自動配置するものです。これにセキュリティおよびデータ保護の要件を加え、遠隔的なデータの自動配置に対応する製品が登場しつつあります。

　現在のところ、特に日本国内では、ビッグデータ活用といっても、進化型BI（ビジネスインテリジェンス）をはじめとする、目的のはっきりした単一のアプリケーションを構築、運用するケースが多いようです。つまり、データ量の多少に関わらず、データとアプリケーションとの関係が1対1なのです。このため、ビッグデータとはアプリケーションの問題だ、データ管理は重要ではない、という言い方をする人がいます。

　しかし、ビッグデータがもっとビッグデータらしい使われ方をするようになったとき、つまりアプリケーションとデータの関係がN対1、さらにはN対Nの関係になってきたとき、人々はデータの「重力」というものを考えざるを得なくなります。これに伴い、やはりデータ管理が重要なのだと気づく組織が増えてくると考えられます。

「『攻めのIT』時代のストレージの基礎知識」バックナンバー