約4000台の仮想マシン基盤を2〜3人で監視――gooでおなじみのNTTレゾナントが「Zabbix」を選んだ理由Zabbix Conference Japan 2018レポート

Zabbixのユーザーやパートナーが集う毎年恒例のイベント「Zabbix Conference Japan 2018」が11月16日に開催された。本稿では、当日の模様をレポートする。

» 2018年12月12日 10時00分 公開
[PR/@IT]
PR

 2018年11月16日、国内最大のZabbix主催イベント「Zabbix Conference Japan 2018」が都内で開催された。2018年10月1日に最新バージョン4.0が登場し盛り上がりを見せるZabbix。2017年に引き続き、多数のパートナー企業、ユーザー企業が参加し大小10超のセッションが繰り広げられた。当日の注目講演をピックアップしてレポートする。

CEO基調講演「戦略的な機能追加に注力し、ロードマップを一般公開」

Zabbix 創設者兼CEO Alexei Vladishev氏

 オープニングの基調講演には、Zabbixの創設者でCEOのAlexei Vladishev氏が登壇。「Thoughts About the Future」と題して、新バージョンZabbix 4.0の特徴と、Zabbixの将来像を展望した。Zabbixは2001年から1年半ごとにLTS(Long-Term Support)をリリースする計画だ。2018年10月1日にリリースした4.0のサポート終了は5年後の2023年10月を予定している。

 Vladishev氏は「Zabbix 3.xから4.0へのアップグレードはシームレスに可能で、多くの企業の実環境で利用されています。Zabbixの開発は、現在はスポンサーによる開発サービスが多くを占めていますが、今後は戦略的な機能追加を進め、機能追加の割合を30%から80%にまで高めていきます」とロードマップを説明。

 実際、Zabbix 4.0では、障害対応のワークフローの迅速化、グラフのウィジェットなどUIの強化、HTTP/HTTPSを利用した監視データの収集、タグによるメンテナンス設定などさまざまな新機能を搭載したことを紹介した。

 今後の強化点としては、Zabbix社やユーザー、パートナー、サードパーティーのベンダーなどが提供する300以上のソリューションをリスト化してWeb上で提供する取り組みや、クラウドサービス「Zabbix Cloud」のβ提供を準備していること、新しいトレーニングコースの提供を開始していることを挙げた。

 また、今後のZabbixのロードマップを一般に公開し、Zabbix 4.2では、テンプレートのバージョンを指定して元にも戻せる機能、テンプレートの作成におけるガイドライン、ダッシュボードでウィジェットを利用できるプラグインシステムなどの機能強化にも触れていた。

 「世界中に130以上のパートナーがいて、75カ国以上で導入されています。リガ(Zabbixが本社を置くラトビアの首都)、ニューヨーク、東京に加え、新たにモスクワにもオフィスを設立します。オープンソースソフトウェア(OSS)として提供しつつ、企業として継続的な成長をバランス良く両立させていきます」(Vladishev氏)

パートナー企業のNTTコム ソリューションズとIIJらが提供する監視ソリューション

 パートナーによるソリューション紹介のセッションには、NTTコム ソリューションズやインターネットイニシアティブ(以下、IIJ)などが登壇した。

NTTコム ソリューションズ マネジメントソリューション本部 プラットフォームソリューション部 田中武信氏

 NTTコム ソリューションズ マネジメントソリューション本部 プラットフォームソリューション部の田中武信氏は「ネットワークスイッチの管理情報を自動生成する!PortMap for Zabbixのご紹介」と題して講演した。

 NTTコム ソリューションズでは、結線情報を収集するための標準規格LLDP(Link Layer Discovery Protocol)をZabbixで利用するためのローダブルモジュールとテンプレートを開発。その技術を用いて、隣接機器情報を可視化し、再利用するためのソリューション「PortMap for Zabbix」を提供していることを紹介した。

 田中氏は「ネットワーク配線管理の省力化やネットワーク配線の証跡作成に活用できます」とユースケースを紹介した。

インターネットイニシアティブ 柳井浩平氏

 IIJのセッションでは柳井 浩平氏が「UOM for Zabbix で広がる監視/運用の世界」と題する講演を行った。

 柳井氏はまず、システムの監視、運用にまつわる課題として、アラートの多さやバラバラな運用、属人化などを挙げ、これらを解決するためには「必要なアラートをホワイトリストで抽出」「アラートの統合」「定形作業の自動化」が有効だと指摘。そうした環境を実現するSaaSとして、IIJでは統合運用管理(UOM)を提供している。

 その上で柳井氏は「UOM for Zabbixは、ZabbixとAPIで連携し、アラートフィルターやチケット管理機能で、抽出、統合、自動化を高いレベルで実現します」と紹介した。

NTTコム ソリューションズ マネジメントソリューション本部 プラットフォームソリューション部 福島崇氏

 Zabbixパートナー企業で構成されるZabbix技術分科会のセッションでは、NTTコム ソリューションズのマネジメントソリューション本部 プラットフォームソリューション部 福島崇氏が登壇。福島氏は、2009年から、日本国内のZabbix認定トレーニングの講師を務めるとともにZabbix(ZABICOM)に関わる開発や保守サポート業務を通してZabbixの普及に努めている。

 福島氏は、「Zabbix 4.0 Non-Certified Introductory Training」と題し、ワークショップの一つとして4.0の新機能を使った新しい監視スタイルの在り方を紹介。具体的には、ダッシュボードが改善され、ウィジェットのサイズや配置が自由になったこと、複数アイテムを簡単にグラフに描画できること、タイムシフト機能を利用した予測、タグやイベント相関関係を用いた障害管理などを解説した。

ポータルサイト「goo」を運営するNTTレゾナントが取り組むOpenStackクラウド監視

NTTレゾナント 比嘉大輔氏

 ユーザー企業による事例講演では、NTTレゾナントの比嘉大輔氏による講演「ZabbixによるOpenStackクラウド監視 〜3500台のホストをどのように監視するのか〜」が注目を集めた。

 ポータルサイト「goo」やオンラインストア「NTT-X Store」など消費者にもなじみのあるサービスを運営するNTTレゾナント。企業向けにもO2O技術やアドテク、AI関連のプラットフォーム提供や、Web、AI、検索、防災、デジタルマーケティング分野でのソリューション事業を展開する。

 今回の講演で紹介されたサービス提供基盤には、Webサービスが約180あり、サービスの開発者、運用担当者は約400人以上に上る。サービス提供基盤はCloudFoundryやOpenStackなどのOSSを活用して構築されている。Zabbixで監視しているのはOpenStack上で稼働する約4000台の仮想マシン(うちZabbix上の監視ホスト数は約3500)だ。これほどの規模の基盤だが監視担当は2〜3人だという。

 「少人数で監視運用を回す際にポイントとなるのが自動化です。弊社では、Zabbixの基本機能や独自スクリプトを組み合わせて、監視ホストの登録、監視項目(アイテム、トリガー)の変更、監視ホストの静観/静観解除、アラートの通知などを自動化しています」(比嘉氏)

 運用自動化の仕組みは大きく、(1)監視設定、(2)ホストの探索と監視ファイルの読み込み、(3)監視の適用の3つがある。(1)では独自の監視ファイルの作成がカギで、(2)と(3)では、Zabbixの機能をうまく活用することがポイントだという。

NTTレゾナントにおけるZabbix監視設定の自動化部分

 1つ目の監視設定では、監視ファイルを仮想マシン上に設置し、ユーザーが簡単に何をどう監視するかを設定できるようにしている。「Zabbixの監視項目をユーザーに設定させるのは難しさがあります。そのため、独自の設定ファイル上で『監視有効状態』かどうか『障害通知あり』かどうかを切り替えられるようにしました」と比嘉氏。一例を挙げると、monitoring_on_alert_on(監視有効状態+障害通知あり)、monitoring_on_alert_off(静観、非通知)、monitoring_off_alert_off(一切監視しない)という3つの項目でユーザーが監視と障害通知の状態を切り替えられるようにした。

 2つ目のホストの探索と監視ファイル読み込みでは、指定したIPアドレスの範囲でホストを探索できるZabbixのネットワークディスカバリが非常に役立ったという。「通常は、どの範囲を探索するかを手動で設定して利用する機能ですが、弊社環境では、IPアドレスの探索範囲はOpenStack APIによって仮想マシンが利用するIP範囲が自動設定されます。ネットワークディスカバリには、発見時にスクリプトを実行させる機能がありますが、これを利用して監視対象VM内の監視設定ファイルを読み込ませています」(比嘉氏)

 3つ目の監視の適用では、監視ファイルに含まれる文字列を条件として、必要なテンプレートを装着、解除している。例えば、監視ファイル上の「apache_stgdev」という項目の有無に応じて、Apache httpd監視用テンプレートとのリンク、リンク解除を行っている。「テンプレートは、gooを20年以上運用して得た監視項目のリストそのものです。これらのテンプレートを適用することで、一定の品質で監視が(自動的に)行われることがメリットです」(比嘉氏)

 また、比嘉氏は、Zabbix運用での苦労として、アクション判定回数増加によって監視遅延が発生したことも紹介。最後に「Zabbix 4.0の検証を進め、Grafanaを使った可視化、監視設定の自動化の改善に取り組んでいく予定です」と今後もZabbixの活用を図っていくとした。

アイレットの「cloudpack」を支えるZabbix監視システム

アイレット 加藤俊行氏

 ユーザー事例2社目の講演として登壇したのはアイレットだ。大阪オフィスの構築チームリーダー加藤俊行氏が『使ってますか?豊富な「Zabbix Integration」とその有用性!』と題して、NagiosからZabbixへの移行事例、Zabbix Integrationの実践方法などを紹介した。

 アイレットは、AWSを活用しながらビジネスに集中するためのコンシェルジュサービス「cloudpack(クラウドパック)」を提供するクラウドインテグレーターだ。cloudpackの特徴は、システムの設計支援コンサルから、MSP運用保守、システム開発をパッケージにし、24時間365日で運用保守サービスを提供すること。この8年間で1200社超の企業が2500プロジェクトで9000台運用してきた実績がある。

 「アイレット標準の監視システムはDataDogで、cloudpackで標準的に使っていたシステムもNagiosでした。そんな時、AWSシステムでNagiosを使っていたお客さまから、Windowsのイベントログのメール通知で一部文字化けが発生すると指摘されました。解決方法を探っているときに、Zabbix好きの担当者がNagiosからZabbixへの移行を提案し、私がその実装を任されることになったのがきっかけです」(加藤氏)

 加藤氏自身はZabbixでの顧客環境の監視経験はほとんどなかったため、当初は苦労の連続だったという。加藤氏は「Amazon CloudWatchのアイテム作成が難しく、頑張ったのですが挫折。そこで当時はbashを使って実装しました。また、トリガー設定も難しいもので、慣れていないと意味が分からないという状況でした。次第にテンプレートとの併用やマクロを使った汎用性がポイントだと気付きましたが、当初の印象は、初心者にはかなりハードルが高いものでした」と振り返る。

 それでも使いこんでいくうちに良さを実感できるようになったという。まず、テンプレートの使い方次第で管理性ががらりと変わることが分かった。加藤氏は「いかに同じ設定を使い回すことができるかがポイント。特にクラウドは監視リソースの増減が非常に早いため、設定の使い回しは重要です」と話す。

 また、外部チェックや通知先などはスクリプトを書くことで自由度が大きく高まることも確認できた。「API系が豊富なクラウド環境には、外部チェックや通知先の自由度は必須と言ってもいいと思います」と加藤氏。さらに「クラウド環境では監視リソースの増減が激しくIPアドレスも固定ではありません。そのため、ネットワークディスカバリの優秀さを実感しました。またクラウドの大半は従量課金ですから、必要になったときに増加させることがポイントです。この点では、ローレベルディスカバリはすばらしいと感じました」と高く評価した。

 インテグレーションではWeb上で提供されているテンプレートを最大限に活用した。具体的には、Amazon CloudWatch、Slack、PagerDutyなどのインテグレーションだ。Backlogとの連携は公表されていなかったため、加藤氏が自作。「公式のテンプレートはtemplate形式で提供されているものが初心者にも使いやすいと思います」(加藤氏)

ZabbixからBacklogへの起票

 その上で加藤氏は「クラウドネイティブの考えから期待するのはSaaSです。Zabbixサーバの構築やZabbixのバージョン管理は、サービス提供の目的ではありません。その意味ではZabbix Cloudには大いに期待しています」と話し講演を締めくくった。

収集したZabbix監視データをElasticsearchで分析するTIS

TIS IT基盤エンジニアリング第1部 池田大輔氏

 続いて、TISのIT基盤エンジニアリング第1部 池田大輔氏が登壇。「Zabbixによる収集データの効果的活用 〜運用自律化に向けたデータ分析について考える〜」と題して、Zabbixで収集した監視データを分析するポイントや、活用のノウハウを紹介した。

 池田氏はまず、「Zabbixが収集する監視データの内容は非常に多岐にわたっています」と指摘した。具体的には、syslog情報、アクセスログ、アプリケーション/ミドルウェア/データベースのログ情報、アプリケーションのステータス情報、死活情報、リソースの傾向情報などがあり、データ型としては数値(整数、浮動小数)、テキスト(文字列、ログ、テキスト)などがある。また、監視結果の生データとして「ヒストリ」を取得したり、1時間ごとの統計データ(最大値、最小値、平均値、合計個数)としてトレンドを取得したりできる。

 「こうしたデータを自由自在に扱えるようにすると、もっと良い結果が得られるではないでしょうか。そんな考えの下、データをElasticsearchなどで活用することに取り組んでいます」(池田氏)

 Zabbixでのデータ抽出は、Zabbix API機能、Elasticsearchへの保存機能(Zabbix 3.4.5以降)、リアルタイムエクスポート機能(4.0以降)、ローダブルモジュールによる書き出し機能(3.2以降)という大きく4つの方法がある。

 例えばAPI機能は、ヒストリを取得する「history.get」やトレンドを取得する「trend.get」といったメソッドが提供されており、Python、Ruby、Go言語などさまざまな言語用のライブラリも提供されている。また、Elasticsearchへの保存機能では、特定のデータ型の監視データをElasticsearchに直接保存できるが、格納時にログのフィールを分割する処理が必要になるなどコツがいるという。

 また、Zabbix 4.0から導入されたリアルタイムエクスポート機能は、監視データをテキストにリアルタイムに書き出すことができ、ヒストリ、トレンドだけではなくイベントデータも含めて書き出すことができる。ローダブルモジュールとは、当初は監視機能のカスタマイズを有効にするために利用できるものだったが、ヒストリの書き出し処理をフックして処理追加できる機能が追加実装されており、この機能を使うことで、自由にヒストリデータを取り出すことができる。

 「ここではデータ分析の活用例として、人依存になりがちな『しきい値ベース』『キーワードベース』の運用工数を削減していくことを考えます。戦略としては、過去の結果との比較、統計分析による傾向値の把握、時系列数値データの変化点や外れ値の検出、テキストログ出力量の時系列変化の把握などがあります」(池田氏)

 その上で池田氏は、これらを実現するためのZabbixの具体的な機能として、タイムシフト機能や、forecast関数、timeleft関数、ダッシュボードのグラフ機能(Zabbix 4.0以降)などを紹介。さらに、Elasticsearchのアグリゲーション機能(Metric、Bucket、Pipeline、Matrix)の優位性を紹介した。

Zabbix 4.0のダッシュボードのグラフ機能で未来時間に予測値をプロット表示可

機械学習による異常の予測検知に取り組むQTnet

QTnet 技術部 監視システムグループ木村裕氏

 QTnet 技術部 監視システムグループの木村裕氏は「機械学習による異常の予測検知について」と題して講演した。QTnetは、九州電力グループの電気通信事業者として、通信サービス「BBIQ」やモバイルサービス「QTmobile」を提供する。木村氏は、電話交換サービスの保守やISP事業用設備構築、ISPサービス設備の保守、運用に従事し、Zabbixをバージョン1.4から利用してきた。

 木村氏はまず、監視設定の問題点として、しきい値内の通常と異なるデータの動きを検知できないことや、ネットワーク機器の各ポート単位のトラフィックしきい値などを設定するには手間がかかることを挙げた。この課題を解決するために取り組んだのが機械学習によるデータの予測分析だ。

 「Zabbixで収集したデータを、APIを利用して分析基盤のApache Cassandraに蓄積。機械学習を行って、その分析結果から異常をSNMP Trap通知することに取り組みました。分析にはSparseCodingやARIMAといったアルゴリズムを使用。Zabbixアイテムのキー名で、適用するアルゴリズムを決定し、データ収集から分析モデルの作成、リアルタイム検知までを自動化しました」(木村氏)

 もっとも、取り組みは試行錯誤の連続で、現在も改善を繰り返している状況だという。木村氏は「検証でうまくいっても、本番でダメといった結果がしばしば。結果が出なくてもくじけない心が大事です。また、誤検知、見逃しも多く、周囲からダメ出しを受けることも。100%正解なら気象予報士はいらないという悟りを開くことがポイント」などユーモア混じりに苦労を解説した。

 今後は数学的な統計分析による異常検知や、システムログ、アプリケーションログなどの文字列の特徴をテキスト分析することにも取り組む予定だ。木村氏は、「Zabbixの標準機能として機械学習が実装されることを希望します」と述べた。



 イベント開催日の2018年11月16日から仮想アプライアンス「ZS-V400」「ZP-V400」のテクニカルプレビューをサポート契約ユーザーに公開し、2018年11月下旬から最新版Zabbix 4.0を搭載したアプライアンス「Zabbix Enterprise Appliance」の3製品「ZS-7400」「ZS-5400」「ZP-1400」を提供開始するという発表もあった。

 マルチクラウド時代に入る中、監視ツールとしての新しい進化を遂げているZabbix。今回のZabbix Conference Japan 2018も、Zabbixの長い歴史とともに、新しい姿を感じさせるイベントとなった。

Zabbix Conference Japan 2018の様子

Copyright © ITmedia, Inc. All Rights Reserved.


提供:Zabbix Japan合同会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2018年12月25日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。