連載
» 2009年08月13日 00時00分 公開

ZABBIXで脱・人手頼りの統合監視(1):あなたの運用管理が十分にうまくいかないワケ (2/3)

[青山雄一,ミラクル・リナックス株式会社]

サービス監視の重要性

一般的なシステム監視方法と課題

 一般的な監視は、以下の2種類の方法に分類することができます。

  • 稼働監視
  • リソース監視

 稼働監視はサーバやOSの死活、プロセスやポートの稼働状況を監視します。稼働監視では異常終了したサーバやプロセスをリアルタイムに検知することができます。そのため、障害が発生した際に具体的な原因と対処方法を知るのに役立ち、素早い障害対応が可能になります。

 リソース監視は、CPU、メモリ、ディスクの使用率などサーバやOSのリソース使用状況を監視します。稼働監視がすでに起きた障害を知るための手段であるのに対し、リソース監視は障害を予測し、計画的なサーバの増強などの対処を行い、障害を予防するのに有効です。

 しかしながら、個々のプロセス稼働状況やリソース使用状況の監視と、ユーザーの視点からサービスが正常に利用できているかどうかを見るサービス稼働状況とは、視点が大きく異なります。本来、管理者が知りたいのは、プロセス単体の稼働状況や各種リソースごとの使用状況だけではなく、ユーザーに対してサービスが確実に提供できているかどうかではないでしょうか。

サービス監視の重要性

 例えば、ユーザーがWebサーバにアクセスした際に、レスポンスに数分掛かるようでは正しくサービスが提供できているとはいえません。このような障害は、稼働監視やリソース監視では検知し切れず、障害の検知はユーザーからの報告に頼っている場合が多くあります。

 このような問題は、サービス監視を行うことで解決することができます。

ALT 図2 サービス監視の概念

 サービス監視は、例えばWebサーバならば正常なページが表示されているか、Webページのダウンロード時間が許容範囲内であるかなど、システムが提供しているサービスに対して実際のユーザーと同様のアクセスを行い、正常にサービスが動作しているかどうかを監視します(図2)。このような監視を行うことで、システム内部の個々のサーバを個々に監視していては知ることのできない、実際のユーザーから見たシステムの状況を把握することができます。

統合的な監視の必要性

 前述のとおり、稼働監視やリソース監視は実際のサービスの稼働状況を知ることはできません。それに対しサービス監視はシステムの健全性を判断することはできても、その原因や対策を把握することはできません。

 レスポンスの遅延が発生したときに、同時間帯にどこかでリソース不足が発生していないか、停止しているサーバがないか、またロードバランサ配下のWebサーバが停止した際に、サービスにはどの程度の影響が出ているかなど、単純な監視のみではシステムの全体の影響度や、関連障害の予測などは困難です。

 これらの情報はそれぞれ個別で見るよりも、統合的な監視を行い、その関係性を見ることで、システムの状態をより明確に知ることができるのです。また、取得した情報は長期間保存し、参照できるようにすることで、年間を通しての高負荷になりやすい時期や、問題となりやすい場所を特定することも可能です。

 そして、複数の方法で監視をしていても、得られた情報を個別に見ていてはあまり意味がありません。複数の監視方法で得られた情報を一元的に管理し、比較、分析を行うことが重要となってきます。

 本章では稼働監視、リソース監視、サービス監視の組み合わせの重要性を紹介しました。次章ではこれらを考慮したうえで、監視、情報の管理を助けるソフトウェアをご紹介します。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。