2020年1月に発生した大手Webサイトの大規模障害について解説、Uptime.comGoogle、LastPass、Travelexの事例を分析

Uptime.comは、企業Webサイトで発生した大規模なサービス停止事例をまとめたレポート「January 2020 Outage Report」を発表した。2020年1月に発生したGoogleやLastPassなどの事例を扱っている。

» 2020年03月04日 18時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Webサイトのアップタイムやパフォーマンスを向上させるソリューションを提供するUptime.comは、2020年2月18日(米国時間)、2020年1月に発生した企業Webサイトの大規模なサービス停止事例をまとめたレポート「January 2020 Outage Report」を発表した。

 Uptime.comによれば、サービス停止の頻度は落ちていないのだという。

 「2020年1月には、金融サービス業界やインターネットインフラ業界で大規模なサービス停止が起こった。1月のダウンタイムは、われわれがいかにネットワークにつながっているか、予想外の障害が起こり得るインフラにいかに依存しているかをあらためて印象付けた」

 さらに、これらのサービス停止は、サイト信頼性エンジニア(SRE)が既に知っている、「あらゆる事物がアップタイムの脅威になり得る」ことも浮き彫りにしたと、Uptime.comは指摘している。どんな小規模な変更、計画されたイベント、トラフィックの急増などであっても、混乱を引き起こす可能性があるという。

 Uptime.comは今回のレポートで、2020年1月に発生したGoogle、LastPass、Travelexのサービス停止などを取り上げ、解説を加えている。

Googleドライブが1時間程度ダウン

 Googleは2020年1月27日(米国時間)、「G Suiteステータスダッシュボード」に示された障害の発生を公表し、ユーザーが「Googleドライブ」にアクセスできない原因となっている問題を調査中だと発表した。

 「Googleドキュメント」「Googleスプレッドシート」「Googleスライド」といったG Suiteサービスは、Googleドライブにデータを保存するため、利用できなくなり、広範なユーザーが影響を受けた。

Googleドライブの運用ステータス(出典:Uptime.com

 ほとんどのユーザーにとって、この問題は約1時間以内に解決した。だが、Googleはこれまでのところ、この問題の根本原因について発表しておらず、「システムの信頼性はGoogleにとって最優先事項であり、Googleは継続的にシステムの改良を進めているので、安心してほしい」と述べるにとどまっていると、Uptime.comは指摘している。

 Uptime.comのサイト信頼性コンサルタントを務めるジョン・アランデル氏は、次のように解説する。

 「Googleのような大企業は、全サービスで共通のファイルストレージインフラを使っている。つまり、GoogleドライブやGmail、Googleフォトなど、全サービスが同じプラットフォームを使用している。それは、バイナリ大規模オブジェクト(BLOB)を保存する『BLOBストレージシステム』と呼ばれる巨大データベースだ。ユーザーの休暇の写真や会議の議題リスト、上司からの電子メールなどは、いずれもGoogleのデータベースにおけるBLOBだ」

 そのため、このインフラに障害が起こると、多くのサービスに影響が及ぶ恐れがある。Googleがデータを複数の独立したリージョンに分けている理由の一つがこれだ。サービス停止が波及する範囲を限定する狙いがある。

 アランデル氏は、こうしたGoogleの取り組みから、一般企業が引き出せる教訓について、次のように説明している。

 「インフラの分割は良いアイデアだが、Google以外の企業もこのアイデアを生かせる。システムのさまざまな部分を疎結合化すれば、個々のコンポーネントで発生した問題が、他のコンポーネントに影響する可能性が小さくなる」

LastPassのWebサイトでログイン障害、Chrome拡張も入手不能に

 無料パスワード管理サービス「LastPass」では、一部ユーザーのログインページがダウンした。LastPassは、この障害が発生から3日間に及んだ時点で初めて事態を認め、障害に見舞われたユーザーの不満を買った。

 LastPassは1月19日午後5時14分(協定世界時)、一部ユーザーに対するログインサービスの停止をようやくツイートで認め、次のように最新状況を報告した。

 「徹底的な調査により、われわれのサービスについて最近リリースした部分のバグがログインエラーを引き起こし、一部のユーザーに影響を与えていることが分かり、この問題を解決した。現在は全てのサービスが正常に機能している」

 Uptime.comはこのような対応について、ユーザーにダウンタイムを告知する最良のタイミングは、「サービス停止がユーザーエクスペリエンスに影響したとき」だと指摘し、次のように説明した。

 「問題が明らかになった時点では、社内の最優先事項が問題の修正だとしても、問題状況を告知してユーザーに透明性を提供すれば、批判の芽を摘み、逆に信頼の獲得につなげることもできる。ユーザーに早期に対処を促すという意味でも、サービス停止の報告は、インシデント管理手続きに組み込まなければならない」

 LastPassサービスでは、ログインページの障害を認めた数日後に、LastPass用のChrome拡張機能がChromeウェブストアからなくなるという問題も起こった。LastPassの担当チームがうっかり削除してしまったためと見られている。

 「パスワード管理ツールやイントラネット、シングルサインオン(SSO)サービスを利用している場合、オペレーションに冗長性を確保しておくのが賢明だ。万が一のときには、ユーザーが代替策として、ネットワークにホストされたパスワードにアクセスできるようにしておく必要がある」(Uptime.com)

Travelexがランサムウェアでダウン

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。