きっかけは1台のルータ故障
3秒で2000ルータがダウン、NTT東フレッツ障害の原因は
2007/05/16
NTT東日本の「フレッツサービス」「ひかり電話」が東日本の広いエリアで5月15日18時44分から翌日1時35分まで使えなくなった大規模障害の原因が分かってきた。
5月16日に説明会見を開いたNTT東日本によると、障害のきっかけは1台のルータの故障。このルータ故障の影響が3秒でNTT東日本管内の約4000台のルータに広がり、2000台が機能を停止した。NTT東日本の代表取締役副社長 大木一夫氏は顧客に謝罪したうえで、「今回の事象を教訓に次世代ネットワーク(NGN)を安心安全信頼のネットワークにしたい」と語ったが、緊急通報までも利用できなくなった今回の障害で、同社の技術に対して不信感が広がりそうだ。
複合的な要因で処理能力オーバー
説明会の冒頭で謝罪するNTT東日本幹部障害が発生したのはBフレッツ(約100万契約。うち、ひかり電話契約は約50万)、フレッツ・ADSL(約126万契約)、フレッツ・ISDN(約13万契約)。23区を除く東京都と、北海道、青森、岩手、宮城、秋田、山形、福島、茨城、栃木、群馬、新潟、山梨、長野の14都道府県。23区と神奈川、埼玉、千葉は設備が新しいこともあり、影響を受けなかった。15日20時53分から順次回復し、16日1時35分に全面復旧した。
障害のきっかけは東京・蔵前の施設にあるルータのハードウェア故障。故障した部品を取り外した際にルートが予備系に切り替わり、修理後に本番系にルートを戻したが、その際ルート情報を管内にある約4000のルータに自動で伝えたところで障害が発生した。管内にあるルータは約1万5000のルート情報を持ち、うち故障したルータは82のルート情報を持っている。ルート情報を伝えられた約4000のルータは、故障によって変更した82のルート情報と、自らが持つ約1万5000のルート情報を照合し、適切なルートを再計算する必要がある。
しかし、NTT東日本の説明よると、「ルータの数が増え、ルート情報が多くなっていた」「高トラフィックだった」などによる「複合的な要因」で、処理能力がオーバーし、ルート情報を書き換えられないルータが続出。ルート情報を書き換えられないことによってIPパケットの転送処理が自動停止した。1つのルータの転送処理が止まると全ルータがルート情報を再び変更する必要があり、それぞれのルータの負荷が高まる。このようにルータの負荷が連鎖的に高まることで、ダウンしてしまうルータが約2000台におよんだ。
ルートフラッピングが発生か
NTT東日本の代表取締役副社長 大木一夫氏NTT東日本は停止したルータを再立ち上げすることでサービスを復旧させた。最新のソフトウェアを利用するルータは大丈夫だったが、2〜3年前から使っていてソフトウェアが旧バージョンのルータがダウンしてしまった。このようにルーティングテーブルが頻繁に書き換えられるためにパケット転送処理ができなくなることをルートフラッピングと呼ぶ。ルート情報をやりとりするプロトコルとしてはBGP(参考記事)が使われている。ルートフラッピングによる障害を回避するBGPの仕組みとしては、1度不安定になったルートに対してペナルティを与えて、ペナルティが累積しているルートの情報はほかのルータに通知しないルートフラップダンピングなどがある。NTT東日本がルートフラッピングに対してどのような対策を講じていたかは不明。「複合要因のメカニズムは今後検証しないといけない」(同社 取締役 ネットワーク事業推進本部 設備部長 吉村辰久氏)としている。
NTT東日本は対策としてドメイン内のルータが持つ約1万5000のルート情報を一時的に1万3000に減らしたと発表。ルート情報を変更する際の計算を少なくし、各ルータの処理負荷を下げる。16〜17日も作業を行ってさらにルート情報を減らすという。また、新しいソフトウェアを導入していたルータでは障害が発生しなかったことから、古いソフトウェアで動くルータを10日ほどかけてアップグレードする。さらにIPネットワーク技術者の育成を行って、今後のNGNに備える考えだ。
ひかり電話はサーバソフトウェアの不具合で2006年9月にも障害が発生し3日間ダウンした。大木氏は今後のIP系サービスついて「新しい技術でまだ遭遇していない事象もある」と語ったものの、「フレッツサービスを販売停止する必要があるまでの不安定さとは考えていない」という。
関連リンク
関連記事
情報をお寄せください:
最新記事
- - PR -
お勧め求人情報

**先週の人気講座ランキング**
〜CCNA編〜
| ◆ | TomcatやJBossなどAPサーバ環境に関する 情報を集約! “業務”用APサーバ大百科 New! |
| ◆ | 一気に解説! 最新のクラスタストレージ 「RAIDを超えたストレージ基準」……など New! |
| ◆ | クラウド的ユーザー体験の変化は脅威か? 仮想化技術を使いこなす運用管理術を紹介 New! |

| ◆ | 上司や部下、部署内メンバーとの情報共有 を“ガラッ”と変えるコラボツールとは? New! |
| ◆ | おばかアプリ選手権、第4弾開催中!! ムダにカッコよくてくだらない作品求ム! |
| ◆ | 社内ファイルサーバを“クラウド”に統合 VPN直結「クラウド型ストレージ」を紹介 |

| ◆ | Twitterのアカウントはなぜ突破された? メールによる新手の攻撃手法とその対策 |
| ◆ | もう仮想化のお試しフェイズは終わりだ! Hyper-V 2.0が基幹システムも仮想化 |
| ◆ | 美人!? まあまあ? 気になる いやし系!! PV急増で「美人時計」がとった手段とは? |

| ◆ | クライアント企業から求められる人材 ⇒IT技術と経営戦略を併せ持つ「戦略家」 |
| ◆ | .NET編集長が実践する「技術情報検索術」 サンプル・コードを簡単に探す“技”は? |
| ◆ | 業務効率と情報セキュリティ対策を両立! 手間なく確実に機密情報を守る方法とは? |

| ◆ | 進化を続ける富士通ストレージETERNUS DX 製品開発者の自信を裏付けるものとは何か |
| ◆ | 運用管理の課題を“2つの観点”から分析 ユーザー満足度の高い「仮想環境」とは? |

| ◆ | 【CTC事例】約30の基幹システムを統合! 膨大なバッジジョブを制御した方法は? |
| ◆ | 仮想化すればコストは削減できるか? 仮想化に必要な「3つの視点」を解説する |
| ◆ | その数、なんと400台以上! グループ内 サーバの「統合管理」によるメリットは? |






