米NetflixがAWSへの移行を完了。7年かかった理由を説明：サービスアップタイムは99.99％に近づく

米Netflixは2016年2月11日（米国時間）付けのブログポストで、同社の動画ストリーミングサービス関連システムのAmazon Web Services（AWS）への移行を、1月初めに完了したことを明らかにした。

» 2016年02月12日 12時59分公開

　ブログポストは、AWSへの移行が2008年に始まったと説明している。自社データセンターで運用していたリレーショナルデータベースの障害により、顧客へのDVDの発送が3日間にわたりストップしてしまったことがきっかけだった。それ以降、Netflixは同社の動画ストリーミングサービスが急成長を続ける中で移行作業を進め、2015年に入る前には既に、顧客向けのシステム全てを含む大部分のシステムが移行を終えていた。

　残っていたのは請求処理インフラおよび一部の顧客情報／従業員向けデータ管理システムだった。これらについて、時間をかけて安全で堅牢なクラウドへの移行方法を考えたうえで作業を進め、1月初めにとうとう終了したのだという。

　Netflixはこれと同時期の2016年1月6日、それまでサービスを提供していなかった130カ国・地域での配信を一斉に開始、ほぼ全世界をカバーすることになった。「世界中に広がる複数のAWSクラウドリージョンを活用することで、当社のグローバルインフラのキャパシティを、動的にシフトし、拡張できるようになっている」という。

　では、なぜ移行に7年間かかったのか。ブログポストは、ほぼ全てのシステムを、クラウドネイティブなものに作り替えたからだと説明している。

　「私たちはクラウドネイティブな手法を選択し、実質的に私たちの技術全てを再構築するとともに、運営の仕方を根本から変えた」

　具体的には一体型のアプリケーションからマイクロサービスの集合体へとアーキテクチャを変え、NoSQLデータベースでデータモデルを再構築した。また、これまでの予算承認の方法、集中管理的なリリース・コーディネーションの手法、数週間かかるハードウェアプロビジョニングのサイクルを撤廃。「継続的デリバリを取り入れ、疎結合的なDevOps環境上でセルフサービスツールを使い、各エンジニアリングチームが独自に判断を下せるようにした」。このため、多数のシステムを新たに構築しなければならず、新しいスキルを獲得しなければならなかったため、これだけの時間が必要だったのだという。

　Netflixは2012年、12月24日から25日の朝にかけて発生したAWSの障害により、サービスが停止して大きな影響を受けた。だが、2015年9月のAWS障害では短時間で復旧した。

　今回のブログポストでは、クラウドへの移行によって、自社データセンターのころに比べ、可用性が大幅に向上、サービスのアップタイムは同社が目標とする99.99％に近づいたとしている。アプリケーションに冗長性とサービス品質低下をならす仕組みを取り入れ、Simian Army（Netflixが開発したテストツール）を使って本番環境で予行演習をすることで、クラウド、アプリケーションのどちらの障害についても、ユーザーの利用体験を損なうことなく対応できるようになったという。