原因が判明

HDD交換ミス&バグで4時間ダウンしてしまう「ひかり電話」

2007/05/24

 NTT東日本、西日本の光IP電話サービス「ひかり電話」が東西間で不通になった5月23日の障害の原因が判明した。障害のきっかけは東西間の通話を中継するサーバのハードディスクドライブの交換。人的ミスとソフトウェアのバグが約4時間の不通を引き起こした。

 作業を担当したNTT-MEの担当者が、中継サーバのHDDを交換したのは5月21日深夜から5月22日未明。故障ではなく予防的措置として交換した。その際、作業者が間違ったコマンドパラメータを設定したが、サーバのフェイルセーフ機能が不十分で、誤ったパラメータを受け付けてしまった。さらに、誤ったパラメータでHDDのデータが破壊されるバグがソフトウェアにあり、HDDのデータが一部破壊されてしまった。

 この破壊されたデータが23日午前6時25分にサーバのキャッシュメモリに読み出され、サーバの処理が停止。東西間で不通状態になった。本番サーバのほかに、処理を代替する代替サーバとHDDも用意していたが、ハードウェアの障害時に切り替わるように設定されていたため、今回のソフトウェアの障害では機能しなかった。

 NTT東西は6時25分の障害発生後、6時50分ごろにサーバを遠隔リブートしたが失敗。8時15分ごろにソフトウェアのバグが判明し、9時9分にサーバの電源入れ直しをオンサイトで行ったが復旧しなかった。9時45分にバックアップソフトウェアをインストールし、サーバを再起動したら成功。10時6分に復旧した。

 NTT東西は、HDD交換時の作業内容のチェック強化などで再発防止に務めるとしている。

関連リンク

(@IT 垣内郁栄)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)