検索
連載

AWSのデータ関連新サービス、Amazon GlueとAmazon MacieとはデータのETLとセキュリティの自動化

Amazon Web Services(AWS)が2017年8月14日(米国時間)にAWS Summit New Yorkで、発表した、ETL(抽出/変換・加工/ロード)を自動化するサーバレスサービスの「Amazon Glue」、および機械学習を活用したデータセキュリティモニタリングサービスの「Amazon Macie」を紹介する。

Share
Tweet
LINE
Hatena

 Amazon Web Services(AWS)は2017年8月14日(米国時間)、AWS Summit New Yorkで、データ活用およびセキュリティに関する各種の発表を行った。データ活用に関しては、ETL(抽出/変換・加工/ロード)を自動化するサーバレスサービスの「Amazon Glue」の一般提供開始、セキュリティ関連の発表には、機械学習を活用したデータセキュリティモニタリングサービスの「Amazon Macie」、「AWS Cloud Trail」の全ユーザーへのデフォルト提供、Amazon S3 bucketへのアクセス制限強化、Amazon Elastic File System(EFS)におけるデータ暗号化がある。

 本記事では、Amazon GlueとAmazon Macieについてお伝えする。

Amazon GlueはETLを自動化するサービス

 Amazon Glueはアナリティクスのためのデータ準備を自動化するサービス。本記事執筆時点では、US East(北バージニア)で提供されている。データソースとしては、Amazon Aurora、Amazon RDSのMySQL/PostreSQL、Amazon Redshift、Amazon S3上のCSVなどのデータ、Amazon EC2上のMySQL およびPostgreSQLに対応するという。

 データソースを指定すると、クローラーがこのデータのスキーマを自動的に解析。これに人が必要に応じて修正を加え、Apache Hive Metadata「互換」の「AWS Glue Data Catalog」に加えることができる。

 Glue Data Catalogは、文字通りデータのカタログとして機能する。アナリティクスに利用するデータを、存在場所やテーブル定義を含めて管理できる。クローラーを追加的に実行することで、カタログに追加後のデータにおける変更を取り込める。

 ターゲットとなるデータ形式を指定。さらにフィールドの削除などの加工の指定をすると、ETLジョブのPySparkスクリプトを自動的に生成する。

 Glue Data Catalogは、Amazon Athena、Amazon EMR、Amazon Redshift Spectrumについては、ETLおよび分析が即座に行える。Amazon EMRのアナリティクスアプリケーションからは、Apache Hive Metastoreの代わりとして利用できるという。

Macieはデータ内容を把握、これに基づきアクセスを監視

 US East(北バージニア)、US West(オレゴン)で提供開始されたAmazon Macieは、データアクセスセキュリティを強化する新サービス。データ管理サービスを対象に、データの中身に基づきアクセス状況を監視、警告を発することができる。対象サービスは、現時点ではAmazon S3のみ。2018年中にはAmazon EC2(EBS含む)、Amazon DynamoDB、Amazon RDS、Amazon EFS、そして新サービスのAWS Glueも対象に加える予定という。

 なお、製品紹介には「機械学習を使ってAWSに保存された重要データを識別し、データ侵害、情報漏えい、不正アクセスから保護できる」といった表現があるが、Macie自体に保護の機能はない。「重要なデータがどこに存在するかをAWSユーザー組織が把握し、アクセス監視を通じて、情報セキュリティを維持することを支援するサービス」というのが正しい表現だろう。

 Macieの機能は、「データの分類およびアクセス管理の分析」と「情報アクセスのモニタリングおよび分析」の2つに分けられる。

データベースログや個人情報を検知

 データの分類については、ファイル拡張子、ファイルヘッダの情報に基づく分類、正規表現を活用した分類を行い、それぞれに10段階でリスク(重要性)レベルを付与するとしている。より興味を引くのは個人情報の検知、および「サポートベクターマシン(SVM)アルゴリズムを使った」というコンテンツ分類だ。

 個人情報に関しては、フルネーム、電子メールアドレス、クレジットカード番号、IPアドレス、米国運転免許番号、米国の身分証明書番号、生年月日の情報を検出し、内容に応じて3段階でリスク(重要性)レベルを付与する。

 SVMを使ったコンテンツ分類では、コンテンツ自体のスキャンにより、電子ブック、電子メール、SEC関連の財務文書、汎用暗号化キー、アプリケーションあるいはシステムのログ、ソースコード(開発言語別に分類)、データベースのバックアップデータ、HTMLやCSSの検知ができる。

 重要な情報がどこにあるかを常時モニターし、これに基づいて漏えい防止措置を確認することで、ガバナンスとコンプライアンスが強化できるとAWSでは説明している。なお、Macieでは新規データが保存されるたびに、このデータの分類を自動で行う。

情報アクセスのモニタリングとアラート

 一方でMacieは、AWS CloudTrailのログ分析により、上記のデータ分類にひも付けたアクセス関連活動のモニタリング機能を提供する。コンソールでトレンドを確認できる他、検索も可能。

 また、Macieはデータアクセスセキュリティに関するアラートを発することができる。アラートには、「ベーシックアラート」と、ユーザー組織の利用活動のベースライン設定に基づく「プレディクティブ(予測的)アラート」があるという。

 ベーシックアラートとしては、情報管理/アクセス設定の不備、サービスの意図しない中断につながる可能性のある設定変更、ランサムウェアが疑われる動き、なりすましの可能性がある異常な情報アクセス、重要情報に対するアクセス権限の昇格、プロキシサーバなどを経由した匿名化が疑われる情報アクセス、通常発生しない場所や端末からのアクセスなどがあるという。

 プレディクティブアラートの例として、AWSはあるユーザーが通常は1週間に1、2のS3オブジェクトしかダウンロードしないのにもかかわらず、このユーザーが1日のうちに大量のS3オブジェクトをアップロードあるいはダウンロードした場合を挙げている。

 Macieは、適切な設定を推奨する点では、AWSが以前より提供しているTrusted Advisorに似ている。だが、Trusted Advisorの対象が「コスト最適化」「パフォーマンス」「セキュリティ」「可用性」と幅広いのに対し、Macieはデータのアクセスセキュリティに特化しており、さらに情報内容とアクセスログに基づく対応の基盤として使える点が異なる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る