バックアップを効率化する重複排除テクノロジ

バックアップを効率化する重複排除テクノロジ(2)

重複排除のさまざまな形態


株式会社シマンテック
プロダクトマーケティング部 プロダクトマーケティングマネージャ
浅野 百絵果
2010/7/2

重複排除は、クライアント、インライン、ポストプロセスといった適用場所、そしてソフトウェアとハードウェアのどちらかという実装形態によって分類できる。これらの多様化した重複排除機能をどう使うかを解説する。
- PR -

 前回は、重複排除の技術とそれをバックアップに適用することによる効果を解説した。企業にとっての重要な資産であるデータは増加の一途を辿り、一方でバックアップによるデータ保護の必要性も高まっている。また、従来に比べて長い期間保管することが求められるようになっている。このような状況下で、最近注目されている重複排除という技術はバックアップにとっての救世主かもしれない。さて、今回は、その重複排除技術を導入する手法について解説する。

 重複排除を使ったバックアップの手法

 重複排除は、過去に実行したバックアップデータを流用することで、同じデータを何度も重複して保管する必要性を排除する技術である。リストアの際に使用するデータは、一度のバックアップで取得されたものではなく、時間的に分散されている可能性が高い。したがって、複数のテープに物理的に分散されてしまうテープは重複排除に向かない。そのため、ソフトウェアでもハードウェアでも、重複排除の際のバックアップ先は、ディスクストレージが基本だ。

 重複排除をバックアップに適用する手法は、重複排除が実施されるタイミングよって区分される。またその手段は、ソフトウェアによるものとハードウェアによるものがある。ソフトウェアとは、具体的にはバックアップソフトで、ハードウェアとはバックアップ先のストレージのことだ。

 重複排除実行のタイミングによる実装の方式は、以下の3つに分類できる。

(1)バックアップクライアントでの重複排除
(2)インライン方式
(3)ポストプロセス方式

 構成やベンダにより使用される用語や定義が異なるが、この連載ではバックアップ対象のサーバにインストールされたバックアップソフトを「バックアップクライアント」と呼び、バックアップ対象とは異なるディスクが接続された専用のバックアップサーバを「メディアサーバ」として記載する。
図1 重複排除は、どこでこの機能を実行するかで分類できる

(1)バックアップクライアントでの重複排除

 バックアップクライアントとは、バックアップ対象となる業務サーバ上にインストールされたバックアップソフトのことである。バックアップクライアントでの重複排除では、重複排除が処理されてから、メディアサーバにデータが送られる。今回紹介する方式の中で、データ発生源にもっとも近い場所で処理されるタイプだ。バックアップの際に変更ブロックだけが送られるため、ストレージだけでなくデータの転送量も少なく抑えられる点にメリットがある。また、少ないデータだけが転送されるので、特にフルバックアップの際に、バックアップに要する時間を短縮する効果もある。ただし、バックアップ対象となる業務サーバ上で処理が実行されるため、CPUやメモリなどに追加のリソースが必要となる。したがって、リソースが不足しがちなレガシーサーバなどには向かない。もっとも、最近のサーバでは低価格化によってリソースが余りがちの傾向があるので(仮想化によるサーバ統合が進んでいることからもこれが実証されている)、問題になることは少ないだろう。

(2) インライン方式

 インライン方式では、データが保存されるタイミングで重複排除の処理も同時に実行される。インライン方式には、ソフトウェアによるものと、ストレージ上でのハードウェアによるものがある。ソフトウェアでは、重複排除の処理は、メディアサーバ上のバックアップソフトで実行される。この場合、重複排除に必要な負荷は、メディアサーバに集中させることができるため、業務サーバに余分な負荷をかける心配がない。一方、インライン方式での重複排除機能を搭載したストレージでは、容量は最低限で済むが、書き込みの速度が遅くなる可能性があるほか、非常に高速な処理が求められるため、ハードウェア(この場合はストレージ)の価格が高額になる可能性がある。

(3) ポストプロセス方式

 ポストプロセス方式では、バックアップされたデータがいったんストレージに格納されてから、重複排除の処理が実行される。これは書き込みの速度向上のためであるが、インラインの場合と比較してストレージの容量が多く必要となる。したがって、比較的容量の多いストレージを用意しておく必要がある。

ソフトウェアかハードウェアか?

 ソフトウェアでの重複排除における最大のメリットは、汎用的なディスクストレージに重複排除機能を取り入れることができる点である。ストレージの自由度が高いため、既存のストレージを流用することも、保守の点から既存の機器とメーカーを合わせることもできる。また、ソフトウェア上でバックアップ処理の対象となるデータ量が少なくなるため、バックアップに要する時間を短縮できることが多い。

 ハードウェアによる重複排除は、バックアップ先として重複排除機能を搭載したストレージを採用することで実現する。既存のバックアップ環境があれば、現在使っているバックアップソフトはそのままで良い。バックアップの運用を変更する必要がなく、設定方法や操作手順を新たに習得する必要もない。業務に使用するサーバに余計な負荷をかけず、かつバックアップソフトを選ばない点に特徴がある。また重複排除のために必要な負荷は、ストレージ側で担うため、既存の環境に追加の負荷をかけない点が最大のメリットである。

 それぞれの方式の特徴をメリット(○)デメリット(×)によってまとめると以下の表のようになる。

ソフトウェア

ハードウェア

クライアント

インライン

ポストプロセス
○ 汎用的なディスクストレージを使用可能 ○ 一般的なバックアップソフトが使用可能
× 専用のディスクストレージが必要
○ ストレージ容量だけでなくバックアップデータの転送量も少なくてすむ
× 業務サーバに追加の負荷がかかる
× メディアサーバの設置が必要

× バックアップ速度が低下 ○ バックアップ速度が速い
× 重複排除前のデータを格納する領域がストレージに必要
表1 重複排除機能の実装形態とおおまかなメリット、デメリット

 

1/2


Index
重複排除のさまざまな形態
Page1
重複排除を使ったバックアップの手法
 (1)バックアップクライアントでの重複排除
 (2)インライン方式
 (3)ポストプロセス方式
 ソフトウェアかハードウェアか
  Page2
重複排除の適切な適用方法
 既存の環境に重複排除機能を追加する場合
 既存のストレージを活用して重複排除機能を追加する場合
 ネットワーク経由でバックアップする場合

Server & Storage フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Server & Storage 記事ランキング

本日 月間