Special
» 2016年04月12日 10時00分 UPDATE

ぜひ、Hatoholコミュニティーにご参加を!:運用管理のハブとなる「Hatohol」で、“OSSでの”統合運用管理を実現する

複数のOSS運用管理ツールのハブとなり、システム全体を一元的に管理・運用できる総合管理OSS「Hatohol(はとほる)」。プロジェクトの開始から3年で、既に著名なクラウドサービス事業者やWebサービス事業者に選ばれているという。その理由とは何か。

[@IT/PR]
PR

 企業のシステムは、仮想化技術やクラウド技術によって大きな変革を遂げた。物理環境だけでなく、仮想環境やクラウドを利用することで、これまでにないほどの規模・密度のシステムを構築できるようになった。

 特にクラウドでは、必要とされる多くのソフトウェアコンポーネントにオープンソースソフトウェア(OSS)が多く選択される。OSSを用いることで、大幅なコスト削減を実現できるからだ。例えば運用管理の現場では、OSSの管理ツールとしてZabbixを選ぶ企業が多い。

 だが一方で、システムの運用管理負荷は大幅に増大している。物理環境・仮想環境・クラウド環境のようにさまざまな場所で稼働する膨大な数の仮想マシンを扱うということは、それだけ管理すべき対象・項目が多いからだ。そして、1つのアプリケーションでも複数のサーバやネットワーク、ストレージといったシステムの構成要素が連携して支えている以上、「システム全体の状況」を一元的に把握できなければ、問題があった際の根本原因追及が遅れるなど、安定運用が難しくなる。

photo ミラクル・リナックス 技術本部開発部シニアエキスパートの大和一洋氏

 商用の運用管理ツールの中には、巨大な複合環境を統合的に管理できるものもある。それは総じて高価だ。一方、OSSでは、それらに相当するプロダクトが存在しなかった。そこで、ミラクル・リナックス 技術開発本部開発部 シニアエキスパートの大和一洋氏が中心となって、この状況を打破すべく、開発に着手したOSSが「Hatohol」だ。

 Hatoholの特徴は、既存のOSSを組み合わせていること。サーバ監視やジョブ監視、インシデント管理、構成管理など個別のタスクについては、十分な機能を発揮するOSSが存在するためだ。これにより、スクラッチから開発するよりも、容易に統合監視を実現できる。

運用管理ツールのキャパシティーを超えるシステム

 Hatoholは、システム監視ツール「Zabbix」や「Nagios」、ログ監視ツール「fluentd」、プライベートクラウド環境を構築できるOSS「OpenStack」のリソース監視コンポーネントである「Ceilometer」など、多種多様な運用ツールを活用して運用統合するツールである。さらにインシデント管理ツールの「Redmine」と連携することで、システムの異常検知や障害発生などを登録して、問題の切り分けや課題管理につなげることができる。

photo OSSの連携で運用統合を実現するHatohol

 上図は、Hatoholを中心に添えた運用の流れを図式化したものである。Zabbixなどの各種監視ツールからイベント情報を受け取り、インシデントとしてRedmineに登録する。重要な障害などが発生していれば、各種監視ツールの情報を横断的に確認して問題を切り分ける。解決のために投入したコマンドや設定変更なども今後、Hatohol上で管理できるようにする予定だ。

 あたかも運用管理ツール間のハブのように機能するHatoholは、各管理ツールの背後にある膨大な数のサーバやネットワーク機器を統合的に管理する。例えば、複数の拠点に設置された管理ツールで個々に監視・管理を行いつつ、センターからはHatoholを通じて全システムの状況を把握するといった使い方もできる。また、特に状況に応じてシステムがスケールするクラウド環境に、Hatoholが非常にマッチするという。

 「重要なのは、監視対象であるシステムの規模や増設に合わせて柔軟にZabbixサーバを追加しても、Hatoholから統合的に管理できることです。これはクラウドのような大規模環境にも対応できるということであると同時に、監視・管理自体をスモールスタートできるということでもあります。

 あるシステムを構築して、Zabbixで監視システムを用意したとします。しかし、他のプロジェクトで同じようなシステムを構築しても、このZabbix環境へ監視対象を追加することはせず、新システム用に新たなZabbix環境を構築することがあります。また、プロジェクトによってはZabbixではなくNagiosを選ぶ場合もあるでしょう。このような場合、同一企業のシステムでありながら、複数の監視システムを抱えることになるので、運用管理がばらばらになってしまうという課題を以前より、しばしば耳にしていました」(大和氏)

 Hatoholは、マルチテナント環境にも最適だ。例えばクラウドサービス事業者やデータセンター事業者は、多数の物理環境を多数の仮想環境に分離してユーザーへ提供している。こうしたサービス環境では、基盤の各レイヤーを管理するために個別のZabbixやNagiosを設置しつつ、テナントごとにZabbixサーバを設置してユーザーへ管理コンソールを提供するといった対応が求められる。

 Hatoholがあれば、複数のZabbixやNagiosを統合しつつ、ユーザーごとにアクセスを制御して必要な情報のみを提供するといったことが可能になるわけだ。

photo クラウド環境でのマルチテナント監視に使うHatoholの活用例

 この他に、「グラフ機能」を用いて複数の管理サーバから得られる情報を重ね合わせて表示すれば、「ある1台だけ異常な負荷がかかっている」など、個々の監視では気付きにくいトラブルの予兆を発見できることにもつながる。特定のサーバの異なる情報を複数重ねて監視する、複数台のサーバのCPU負荷のみを表示して監視するといった運用も可能だ。

 また、Hatoholでは、管理ツールからデータを取得する機能はプラグインとしてHatoholサーバとは独立している。プラグインとHatoholサーバとの通信プロトコルは、HAPI2.0(Hatohol Arm Plugin Interface 2.0)として仕様化されている。そのため、ユーザーは、独自にプラグインを作成して、公式にはサポートされていない管理ツールのデータを統合することも可能だ。

 HAPI2.0は、JSON-RPCをベースにしているため、PythonやRubyなどのライトウェイト言語との親和性もよく、開発のハードルが低くなっている。実際、Hatohol標準のZabbixやNagiosのデータ取得用プラグインは、Pythonで記述されている。

photo 他の運用管理ツールと連携するためのAPIも用意する

24時間365日運用を支援する新しいHatohol

 2016年1月にリリースされたHatohol 16.01では、さらなる運用負荷軽減を狙い、システムオペレーター向けのGUIが改良された。

 24時間365日の運用が当然となったシステムでは、監視オペレーターがシステムの状況を正確に把握し、適切な部門や担当者へ迅速に引き継ぐという対処が非常に重要である。しかし、膨大なイベントが発生する状況下で、それぞれの重要度を認識した上で、漏れがないように対処していくのは非常に困難だ。

photo ミラクル・リナックス マーケティング本部プロダクトマーケティングエキスパートの松永貴氏

 ミラクル・リナックス マーケティング本部プロダクトマーケティング エキスパートの松永貴氏によれば、そうした運用現場での声を反映して、Hatohol 16.01から16.04にかけて操作性を大幅に向上させたという。

 「新しいHatoholでは、サマリー情報で“重要なイベント”と“未対処の重要なイベント”の数を表示するバッジを追加しました。各イベントに対して処理状態をマーキングすることで、一目で状況を把握することができます。さらにメモ機能も追加したので、処理の途中で監視を交代するときにも、引き継ぎが容易です」(松永氏)

photo 運用現場の声を反映し、サマリー情報で“重要なイベント”と“未対処の重要なイベント”を視認しやすくするようUIを改善
photo イベントに対してコメントを残せるメモ機能も加わる

 もう1つのポイントが、豊富な絞り込みオプションの設定を行えるようにしたことだ。

 特に「ホスト」で絞り込むときには、表示対象のホストを選択するだけでなく、表示を除外するホストを選択できるようにした。例えば、“開発用のインスタンスは除く”ように設定すれば、余計なイベントに惑わされることがなくなる。

 ユーザーごとにデフォルトフィルターを保存できるため、オペレーターの責任範囲をあらかじめ設定しておき、担当しているユーザーのホストのみを管理するといったことも容易になる。膨大なイベントから「自分が担当すべきものを目視で探す」といった、人的ミスが発生しがちな体制からも脱却できるわけだ。

photo イベントをフィルタリングするための絞り込みオプションも拡充される

積極的に使って、Hatoholを育てよう

 大和氏がHatohol開発を開始してから3年が経過し、最近では、Webサービスプロバイダーやクラウドサービス事業者などを中心に活用が広がっているという。

 「Zabbixによって導入コストを5分の1に削減したという事例もあり、今後はますますOSSが活用されていくことでしょう。また、クラウドへのシステム移行が進むにつれて、物理環境の時と比べてはるかに監視すべき対象が増大することが考えられます。運用管理者の負担も増大するので、今までよりも大幅な効率化が求められるでしょう。Hatoholによる監視統合によって、効率的な運用の一助になると考えています」(松永氏)

 さらなる運用負荷の低減とコスト削減を目指して、大和氏はHatoholを進化させることに意欲的だ。

 「例えば、ディープラーニングや人工知能の要素による、運用監視を自動化の促進したい。また、そのような野心的な取り組み以外にも、現状、機能的に不足しているところ・使いにくいところは、まだまだたくさんあります。

 そのような部分をユーザーの方から、ぜひ教えていただきたいです。それこそが、Hatoholを進化させるために真の必要な要素と考えています。ぜひ、使ってみてください。そして、気軽に不具合報告や機能要望などのフィードバックをください(*)。一緒にHatoholの明日を作っていきましょう」(大和氏)

(*)「GitHubのHatoholリポジトリ」のIssuesより登録できます



 ミラクル・リナックスでは、日本仮想化技術と共同でOpenStackの監視環境を検証し、複数のZabbix/MIRACLE ZBXサーバとHatoholを活用した関し環境の構築手順書やテンプレートを公開している。このドキュメントを参考に、ぜひ開発・検証環境から試してほしい。もし必要な機能・欲しい機能があれば、コミュニティーで発言するなどして、Hatoholの次世代バージョンを作るために積極的に参加していただきたい。

photo 「Hatoholを知っていただき、ぜひ、多くのユーザーに使ってもらいたいですね。必要な機能・欲しい機能があれば、GitHubのHatoholリポジトリにフィードバックを!」と大和氏

Copyright© 2017 ITmedia, Inc. All Rights Reserved.


提供:ミラクル・リナックス株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2016年5月11日

【連載】Hatoholで実現する分散監視

スケールアウトできる監視能力を備え、かつ拠点などに複数設置されている異なる監視システムの情報を一元的に把握でき、しかもオープンソース……そんなツールが欲しくて、作ってしまいました。

Hatoholのインストール方法と初期設定について解説します。もしうまくいかなかった場合にチェックすべきログについても紹介します。

Hatoholの監視画面にはどのようなものがあり、それぞれ何を表示するのかを説明します。

何らかの異常を感知したら、すぐに行動を起こすべし。Hatoholを使って、検知後すぐにスクリプトの起動、メールの送信を行う方法を学びます。

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。