きっかけは1台のルータ故障

3秒で2000ルータがダウン、NTT東フレッツ障害の原因は

2007/05/16

 NTT東日本の「フレッツサービス」「ひかり電話」が東日本の広いエリアで5月15日18時44分から翌日1時35分まで使えなくなった大規模障害の原因が分かってきた。

 5月16日に説明会見を開いたNTT東日本によると、障害のきっかけは1台のルータの故障。このルータ故障の影響が3秒でNTT東日本管内の約4000台のルータに広がり、2000台が機能を停止した。NTT東日本の代表取締役副社長 大木一夫氏は顧客に謝罪したうえで、「今回の事象を教訓に次世代ネットワーク(NGN)を安心安全信頼のネットワークにしたい」と語ったが、緊急通報までも利用できなくなった今回の障害で、同社の技術に対して不信感が広がりそうだ。

複合的な要因で処理能力オーバー

ntt01.jpg 説明会の冒頭で謝罪するNTT東日本幹部

 障害が発生したのはBフレッツ(約100万契約。うち、ひかり電話契約は約50万)、フレッツ・ADSL(約126万契約)、フレッツ・ISDN(約13万契約)。23区を除く東京都と、北海道、青森、岩手、宮城、秋田、山形、福島、茨城、栃木、群馬、新潟、山梨、長野の14都道府県。23区と神奈川、埼玉、千葉は設備が新しいこともあり、影響を受けなかった。15日20時53分から順次回復し、16日1時35分に全面復旧した。

 障害のきっかけは東京・蔵前の施設にあるルータのハードウェア故障。故障した部品を取り外した際にルートが予備系に切り替わり、修理後に本番系にルートを戻したが、その際ルート情報を管内にある約4000のルータに自動で伝えたところで障害が発生した。管内にあるルータは約1万5000のルート情報を持ち、うち故障したルータは82のルート情報を持っている。ルート情報を伝えられた約4000のルータは、故障によって変更した82のルート情報と、自らが持つ約1万5000のルート情報を照合し、適切なルートを再計算する必要がある。

 しかし、NTT東日本の説明よると、「ルータの数が増え、ルート情報が多くなっていた」「高トラフィックだった」などによる「複合的な要因」で、処理能力がオーバーし、ルート情報を書き換えられないルータが続出。ルート情報を書き換えられないことによってIPパケットの転送処理が自動停止した。1つのルータの転送処理が止まると全ルータがルート情報を再び変更する必要があり、それぞれのルータの負荷が高まる。このようにルータの負荷が連鎖的に高まることで、ダウンしてしまうルータが約2000台におよんだ。

ルートフラッピングが発生か

ntt02.jpg NTT東日本の代表取締役副社長 大木一夫氏

 NTT東日本は停止したルータを再立ち上げすることでサービスを復旧させた。最新のソフトウェアを利用するルータは大丈夫だったが、2〜3年前から使っていてソフトウェアが旧バージョンのルータがダウンしてしまった。このようにルーティングテーブルが頻繁に書き換えられるためにパケット転送処理ができなくなることをルートフラッピングと呼ぶ。ルート情報をやりとりするプロトコルとしてはBGP(参考記事)が使われている。ルートフラッピングによる障害を回避するBGPの仕組みとしては、1度不安定になったルートに対してペナルティを与えて、ペナルティが累積しているルートの情報はほかのルータに通知しないルートフラップダンピングなどがある。NTT東日本がルートフラッピングに対してどのような対策を講じていたかは不明。「複合要因のメカニズムは今後検証しないといけない」(同社 取締役 ネットワーク事業推進本部 設備部長 吉村辰久氏)としている。

 NTT東日本は対策としてドメイン内のルータが持つ約1万5000のルート情報を一時的に1万3000に減らしたと発表。ルート情報を変更する際の計算を少なくし、各ルータの処理負荷を下げる。16〜17日も作業を行ってさらにルート情報を減らすという。また、新しいソフトウェアを導入していたルータでは障害が発生しなかったことから、古いソフトウェアで動くルータを10日ほどかけてアップグレードする。さらにIPネットワーク技術者の育成を行って、今後のNGNに備える考えだ。

 ひかり電話はサーバソフトウェアの不具合で2006年9月にも障害が発生し3日間ダウンした。大木氏は今後のIP系サービスついて「新しい技術でまだ遭遇していない事象もある」と語ったものの、「フレッツサービスを販売停止する必要があるまでの不安定さとは考えていない」という。

関連リンク

(@IT 垣内郁栄)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)