Google、App Engineの障害について経緯を説明：ルータ負荷の上昇がきっかけ

Googleは、米国時間の10月26日にGoogle App Engineで発生したサービス障害について、同日付のブログで経緯や再発防止策について説明した。

» 2012年10月30日 16時07分公開

[＠IT]

　米Googleのクラウド環境「Google App Engine」で、米国時間の10月26日にサービス障害が発生した。Googleは同日のブログで、障害発生から復旧に至るまでの経緯や再発防止策について説明している。

　それによると、障害は米太平洋時間の26日午前7時半ごろから11時半ごろにかけて発生し、App Engineアプリケーションのリクエストの約50％が処理できなくなった。

　発端は、複数あるApp Engineデータセンターの1カ所で午前4時ごろからトラフィックルータ群の負荷が増大し、6時過ぎに限界値を突破したことだった。同社はこのデータセンターの負荷に対応するため、6時半ごろからトラフィックルータのグローバルなリスタートを実施。ところがこのリスタートと負荷がさらに加わったことにより、7時半ごろには健全なトラフィックルータの数が予想外に減り、安定した運用のために必要な最低レベルを下回った。

　これが原因となって残るトラフィックルータも過負荷状態に陥り、App Engineデータセンター全体に問題が拡大、アプリケーションのエラー率上昇や遅延が発生したという。

　ユーザーには8時28分の通知で障害の発生を告知し、11時過ぎになって、App Engineのトラフィックルータ群が連鎖的な障害に陥っているのを発見。サービスを復旧させるためにはフルリスタートを実行してトラフィックを徐々に増やすほかに選択肢がないと判断した。11時45分にはトラフィック増大が完了し、App Engineは通常の状態に復旧した。