連載
» 2020年04月30日 05時00分 公開

150分間のサービス全停止も教訓に:障害対応の属人化を防ぐ――freeeのSREが実践する情報共有術

サービスで発生する障害をゼロにすることは難しい。では、障害をゼロに近づけるために誰が何をしていくか。freeeのSREが大規模障害で学んだことや、障害を減らすための取り組みを紹介した。

[タンクフル,@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Webサービスで起きる障害の原因は、Webサーバやデータベース、キャッシュの設定ミス、ハードウェアの故障など多岐にわたるため、障害のリスクをゼロにしながらサービスを提供することは現実的には難しい。一方で、障害が起きた場合、社会的信頼の損失など悪影響は避けられない。

 では、できるかぎり障害をゼロに近づけるためにどうすればいいのか。2020年1月に開かれた「SRE NEXT 2020 TOKYO」に登壇したfreeeでSRE プレイングマネージャー 坂井 学氏の講演内容を要約してお伝えする。

SaaSを提供するなら「障害ゼロ」にはできない

 坂井氏は冒頭、講演のゴールを「障害解消に向けた取り組み(障害対応)に課題を感じている人が、改善のための第一歩を踏み出そうと思えるようになること」と説明。SRE(Site Reliability Engineer)として障害に対応した経験を「赤裸々に話すが、まだ課題も多い。ぜひ、みなさんの取り組みも共有いただきたい」と語り、セッションを始めた。

freee SRE プレイングマネージャー 坂井 学氏 freee SRE プレイングマネージャー 坂井 学氏

 freeeは資金や個人情報に関するセンシティブな情報を多く取り扱っている。例えば「会計freee」は個人事業や法人の財務情報を扱うサービスで、電子決済等代行業に該当するため「銀行法等に基づく登録が必要で、金融庁に登録済み」(坂井氏)だという。freeeは2019年12月にマザーズへ上場し、プライベートカンパニーからパブリックカンパニーへ移行。「障害に対して、よりシビアかつオープンな情報公開が求められるようになった」(坂井氏)のだ。

 たとえ障害が許されないような状況でも、坂井氏は「障害はゼロにはできない」と考えているという。

 「新しいチャレンジをして、価値を生み出していく必要がある中で障害が一定数発生するのは避けられない。障害の発生を受け入れながら、安定したプロダクトを目指すという相反することの両立を目指しているのがfreeeだ」(坂井氏)

150分間のサービス全停止――大規模障害の発生から学んだこと

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。