複雑化するストレージ装置の故障、復旧サービスならRAID障害も救済可能に復旧率95.1%を支える技術に迫る【前編】

読み出せなくなったHDDからのデータ復旧サービスを手がける日本データテクノロジー。これまでの実績は7万5000件以上で、復旧率は95.1%に上り、7年連続で国内トップクラスの実績を上げている。論理障害に限らず物理障害が発生したHDDでも復旧の可能性があるとする同社に、HDD故障に関する最近の傾向とそれを修復する同社の技術について、2回にわたって聞いた。前編となる今回は、最近増加傾向にあるというRAID障害の内容と、その修復技術について解説してもらった。

» 2013年07月25日 10時00分 公開
[PR/@IT]
PR

 IT化が広く波及している昨今、帳票データや顧客情報はもとより映像や電子カルテなど、電子化のすそ野は業種を問わず広がっている。ストレージ装置には日々データが蓄積され、データ保全の重要性がますます高まる。これらのデータが消滅してしまうと、業務に支障が出ることがほとんどだ。そこで冗長性を高めてデータ保全を図るRAID5構成のストレージ装置を導入することもあるだろう。

RAID5構成でも安心できない

 RAIDは、複数のハードディスク装置(HDD)をまとめて1台のストレージ装置として利用するための仕組みで、RAID5はいくつかあるRAIDの構成方式(RAIDレベル)の1つである。データに加えて「パリティ」と呼ぶ誤り訂正情報を、複数のHDDに分散記録しておくことで、どれか1台のHDDが壊れても、それを交換した上で再構築(リビルド)処理を実施すれば復旧できることが特徴だ。

日本データテクノロジーのデータ復旧事業部技術開発プロジェクトで責任者を務める西原世栄氏

 ただし実際には、RAID5構成を採ったからといって必ずしも安心はできない。「RAID構成を採ったHDDのデータ復旧依頼に関する問い合わせが近年増加傾向にあります」と語るのは、故障したHDDのデータ復旧サービスを手がける日本データテクノロジーのデータ復旧事業部技術開発プロジェクトで責任者を務める西原世栄氏。同社は、故障したHDDのデータ復旧で累計7万5000件以上、RAID機器に関しては年間1000台以上の復旧実績を持ち、復旧率は95.1%に上るという。論理障害に限らず物理障害が発生したHDDでも復旧可能だという同社に、HDDの故障に関する最近の傾向とそれを修復する同社の技術について聞いた。

――故障したHDDのデータ復旧に対する問い合わせに関して、最近目立つ傾向はありますか。

西原氏 RAIDに関する問い合わせが増加傾向にあります。お客様自身や、同業他社に依頼したけれども復旧できなかったものに関する問い合わせも増えています。

 お客様の中には、緊急性の伴う企業の基幹系システムや医療分野のシステムなどが多いようです。基幹系システムでは、販売や在庫管理、財務などの定型的なデータを保存することが多く、複雑なインターフェイスや出力の柔軟性よりも安定性と正確さが要求されており、ストレージ装置に対する依存度が大きくなっています。一方、医療分野でもIT化が進み、カルテなどが電子化されている例が増えているようです。先日も、電子カルテを格納したストレージ装置が故障してしまい、データを読み出せないと診察や手術に支障が出るという深刻な依頼があり、即日優先対応しました。

――RAID構成のストレージ装置の場合、どの程度の規模の装置に関する修復依頼が多いでしょうか。

最近修理依頼が増加傾向にあるRAID構成を採るストレージ装置の一例

西原氏 RAID構成を採る安価なNAS(Network Attached Storage)が普及したことで、個人からはこうした装置の依頼が増えています。法人からの依頼でも、多くが、部門単位で導入しているような簡易的なNASです。中には、データセンターで使われているストレージ装置の依頼もありました。仮想環境を構築しているデータセンターのストレージ装置で、15台のHDDを使っていたというものです。

RAIDの障害に気づかないユーザーが多い

――どのような故障原因が多いでしょうか。

西原氏 事例によりさまざまです。RAID構成に限らずHDDの故障は、大きく物理障害と論理障害の2つに分けられます。このうち物理障害では、ヘッドの故障が最も多く、全体の40〜50%を占めます。この原因の大部分は衝撃です。特にHDDの稼働中に強い衝撃を加えると、nm(ナノメートル)のオーダーで浮上しているヘッドがプラッタに当たってしまい破損します。夏場特有の症状としては、基板が焦げてしまったHDDもあります。

HDDの物理障害を引き起こす主な要因

 それに対して論理障害は、ファイルシステムの破損のほか、RAIDの場合にはRAID情報が何らかの原因で書き換わってしまっているものが見られます。複数のHDDを組み合わせるRAIDでは各HDDにRAIDの管理領域が確保されており、そこにRAIDを構成するHDDの台数や、そのHDDが全体の何台目なのか、「RAID0」や「RAID5」といったRAIDレベル、データ記録の単位などが書かれています。これが、例えば本来RAID5で構成しているのに、なぜか「RAID0」と書かれていたりして、データを正しく読み出せなくなることがあります。なお各HDDにRAIDの管理領域が確保されるのは一般にソフトウェアRAIDの場合で、簡易的なNASで多く用いられています。より規模の大きいストレージ装置で利用されるハードウェアRAIDの多くは、RAIDインターフェイスカードがRAID情報を管理するので、HDDにはデータ領域しかありません。

 さらにRAID特有の症状として、RAID5構成を採った場合は、どれか1台のHDDが壊れてもその時点では気づかず、2台目が壊れて初めて故障したことに気づくという例があります。RAID5構成を採ると、どれか1台のHDDが壊れただけならばそれまでと変わらずにデータを読み書きできるので、故障に気づかないユーザーが案外多いようです。

 また、RAID構成を採る場合は、通常同じロットのHDDが使われます。そのためどれか1台が故障したときは、ほかのHDDも故障しやすい状態になっている恐れがあります。そのようなときに、RAIDの再構築処理を実施してHDDに高い負荷をかけてしまうと、1台目の故障の復旧が完了する前に2台目が壊れて、復旧不能に陥ってしまいます。RAID5の再構築処理の際には、全ての領域のデータを読み出す必要があるので、各HDDには長い時間、高い負荷がかかります。

西原氏 そのほかは、人為的なミスが多いですね。例えばRAID1(ミラーリング)構成ならば、1台のHDDが破損しても、確実にバックアップが残っているはずです。ところが障害が発生すると担当者が焦ってしまい、反対方向にコピーして、残っていたバックアップ側のデータも消去してしまうといった事例があります。

 ほかには、お客様自身で修復を試みてLinux/UNIXのfsckコマンドを実行してしまい、ファイルシステムを修復するつもりが逆に、ファイルシステムに矛盾が生じたあるディレクトリ以下のファイルを全て消去してしまったという例があります。

40億セクターの中から目的のデータを突き止める

――故障したHDDから、どのようにデータを復旧するのでしょうか。

西原氏 まず、お客様から聞き取り調査します。RAID構成のストレージ装置であれば、例えばRAIDレベルやHDDの順序などです。ただしこれまでの経験上、請け負った事例のうち10%程度が、この時点で間違っていることがありました。そのため次に、この情報が正しいかどうかを、実際にHDD内のデータを見て確認します。

 各HDDに物理障害がなく、データを読み出せる場合は、各HDDのクローンを作ります。これは、先ほど述べた理由で、持ち込まれたHDDになるべく負荷をかけないようにするためです。

 その後、各HDDのRAID情報を調べます。2TBの容量があるHDDの場合、セクター数は約40億にもなり、そこからしらみつぶしに情報を探すという、気の遠くなるような作業が必要です。しかし、当社の経験あるRAID専門技術員であれば、目的の情報がどの辺りに書き込まれているか、ある程度特定することができます。RAID構成の復旧は、経験や知識がなければ、データの構成すら解析することはできないのです。

 こうしてRAIDを構成するすべてのHDDを調べて、RAIDレベルと各HDDの順番、データの書き込み単位などを確認したら実際にRAIDを組み、ファイルシステムを修復します。この際、RAID構成の場合は単体のHDDと異なり、複数のHDDにまたがってファイルシステムが構築されているので、全てのHDDの間で整合性を取りながらファイルシステムを修復する必要があります。さらに、RAID5構成の場合には、データ本体に加えて書き込まれているパリティ情報が壊れていることがあります。その場合は、正しいパリティ情報を計算して求め、書き換えます。RAIDを扱う当社の技術者に、16進電卓は欠かせません。

 ファイルシステムが修復できれば、ファイルにアクセスできるので、目的のデータを救出します。


 なお、物理障害が発生したHDDはそのままではデータを読み出せないので、別の手順が必要になるという。後編では、意外と多発する物理障害の例やその復旧方法などを詳しくインタビューする(後編へ)。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:OGID株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2013年9月7日

関連リンク

本稿で紹介したデータ復旧サービスについてはこちらで確認できます。

関連記事

HDD修復のために、無菌手術室と同等であるクラス100のクリーンルームを用意している。後編となる今回は、HDDの物理障害に対処する同社の技術について聞いた。

RAIDは複雑な技術であり、その導入・運用にはさまざまな知識が必要だ。その中でも最初の難関といえる「RAIDレベル」について、分かりやすく解説する。

HDDクラッシュに遭遇して、バックアップもなく、復旧ソフトを使ってもダメなら泣く泣くあきらめるしかない、とも限らないのだった。

自然災害によって故障したHDDからデータを取り戻すことはできるのだろうか。HDDデータサルベージ企業の日本データテクノロジーに聞いた。

どうやらHDDが壊れたようだ。これまで兆候もなかったのに突然どうして……HDD障害が夏場に急増する理由を日本データテクノロジーに聞いた。

「夏場に起きやすいHDD障害」の傾向と対策について聞いたが、今回は具体的にどういった製品が持ち込まれているのかまで踏み込んでみた。

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。