インフラと運用、デジタル時代への対応に必要なのはマインド変革：Gartner Insights Pickup（104）

デジタル時代においてますます重要な課題はサービス停止を減らすことだ。それには、迅速に障害復旧を行う“ヒーロー”に頼るような考え方では不十分だ。

» 2019年04月12日 05時00分公開

[Katie Costello, Gartner]

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナーアナリストらのブログサイト「Gartner Blog Network」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

　どのような環境で仕事をしているかにかかわらず、業務時間に何らかのサービスの停止や中断を経験したことがあるだろう。こうした事態はストレスがたまるが、完全になくすことはできない。しかし、年中無休で動き続ける今日のデジタル世界では、ダウンタイムへの対応が従来にも増して重要になっている。

　そこで問われるのがITの回復力だ。インフラが混乱に耐え、パフォーマンスへの影響が想定内に収まることや、そしてインフラの構造と機能を復旧させること、新たなレベルの運用要件に迅速に適応することが求められる。回復力の高いデジタルインフラを実現する要素として最も重要な部類に入るのが、組織における人と文化だ。

　「回復力の高いデジタルインフラを計画し、実現しようとしているITインフラ＆オペレーション（I＆O）の担当リーダーは、インフラやプロセスと同じくらい、『人』という要素が重要なことを理解しなければならない」と、Gartnerのシニアディレクターアナリストを務めるマーク・ジャガーズ氏は語る。同氏は、I＆Oリーダーがそうした観点から、自組織のITの回復力を向上させるために集中すべき4つの分野を挙げている。

継続的改善を推進する

　現在のI＆Oチームは、サービス停止を減らすのに先を見越して全体的な環境の改善を計画するよりも、迅速な問題解決にまい進する“消防士”や“ヒーロー”のようなメンタリティを持っていることが多い。ヒーローは、必ずしも問題を解決する人ではない。むしろ、本当のヒーローは、そもそも危機が起こらないようにする人だ。

　もちろん、ビル火災を消火することは価値があるが、火災が街全体に広がるのを防ぐことはもっと価値がある。では、サービス停止を防ぐにはどうしたらよいか。1つの方法は、プレモータム（事前検視）分析を行い、起こり得るあらゆる失敗を洗い出し、あらかじめ対応方法を検討しておくことだ。そうすることで、リーダーは予期せぬ停止を減らし、将来に向けてシステムを準備し、適応させる新たな方法を見いだせる。

　また、異常やインシデントの検知時間（TTD：Time To Detect）と復旧時間（TTR：Time To Repair）の改善や、停止への対応を自動化できるシステムに取り組むことも重要だ。

サイト信頼性エンジニアリング（SRE）の原理を働かせる

　サイト信頼性エンジニアリング（SRE：Site Reliability Engineering）チームは、ソフトウェア開発やネットワーキング、システムエンジニアリングのスキルを持った人員で構成される。このチームは業務時間の50％以上を、インシデントの検知など、問題への対応を自動的に行うソリューションの開発に費やす。その目的は、これまでのインシデントから学び、対策や対応を改善するとともに、知見を他のチームにも移転しITエコシステムの回復力の向上につなげることにある。

　「SREチームは、ユニークな課題に対処しなければならない。それは、ITシステムのソースコードや運用要素の問題を発見するだけでなく、他のチームと連携し、さらに他チームにトレーニングを提供し、影響を与えることだ」（ジャガーズ氏）

責任を共有する文化を作る

　システム停止が発生すると犯人探しになりがちだ。だが、犯人探しは非生産的であり、根本的な問題解決にはならない。通常、システム停止の原因として真っ先に挙げられるのは人間だが、多くの場合、失敗はプロセスやインフラ、人的要因の複合要因によって発生する。

　犯人探しをせず、システムの停止を現状の課題に対応するための学習機会として生かすアプローチを取るべきだ。そうすれば、過去にうまくいかなかったことや、その再発を防ぐために変えるべきことについて、組織が多くを学べるようになる。さらに、インシデントの事後レビュー（犯人探しをしない事後分析）を行うことで、インシデントにつながったさまざまな要因を理解できる。

チームを地理的に分散させる

　アップタイムと24時間週7日の可用性は、デジタル時代にビジネスを行う上で応えるべき大きな期待だ。だが、ITインフラが心もとないという問題がある。実際、Gartnerは、今後5年以内にインターネットの大規模な停止が発生し、24時間以上にわたって1億人以上のユーザーに影響が及ぶと予想している。大規模な停止の可能性に備え、その影響を軽減するには、ITインフラと運用チームを地理的に分散させることが重要だ。そうすれば、ビジネスを支えるスタッフが、さまざまな異なるタイムゾーンで仕事に当たることになる。

　継続的なプロセス改善の推進により、サービス提供の継続性を最大化し、ダウンタイムを最小化することで、修正よりも回復を重視する文化を作ることが重要だ。組織としてアップタイムの向上、インシデント検知時間の短縮、対応の自動化といった課題に重点を置き、優先的に取り組むことが、サービス停止の防止に向けた前進につながる。

出典：Achieve a Culture of Resilience in I＆O（Smarter with Gartner）