ニュース
» 2018年11月09日 12時26分 公開

ソフトウェアエンジニアが大きな役割果たせる:GoogleがAI HubとKubeflow Pipelinesを発表、機械学習専門家の知見を再利用

Googleは2018年11月8日(米国時間)、機械学習のパイプラインを容易に構築できるツール「Kubeflow Pipelines」と、機械学習のためのツールやデータのカタログとも呼べる「AI Hub」を発表した。

[三木泉,@IT]

 Googleは2018年11月8日(米国時間)、機械学習のパイプラインを容易に構築できるツール「Kubeflow Pipelines」と、機械学習のためのツールやデータのカタログとも呼べる「AI Hub」を発表した。Kubeflow PipelinesはGitHubで公開されている。また、AI Hubは限定ユーザーとαテスト中。

 この2つのツールの目的について、Google CloudでML Platformエンジニアリング ディレクターを務めているフセイン・メハンナ(Hussein Mehanna)氏は、「機械学習専門家の成果を一般ソフトウェアエンジニアなどが再利用することで、機械学習プロセスにおいてより大きな役割を果たすことができ、専門家の仕事をスケールさせられる」と説明した。

Kubeflow Pipelinesとは

 Kubeflow Pipelinesは、Kubeflowプロジェクト(Kubernetes上で機械学習のパイプラインを提供するソフトウェアを開発するOSSプロジェクト)の一部として位置付けられるワークベンチツール。データサイエンティストが、自身の開発したロジックをパイプラインに組み込むことで、一般的な開発者がこれを再利用し、Kubeflowでどこにでも容易にデプロイできるようになる。

データサイエンティストの仕事をパイプラインにカプセル化することで、データエンジニアなどが容易に再利用できるようになる

 データサイエンティストは、Jupyter NotebookからPython関数を呼び出すことで、パイプラインを作成できるという。Kubeflow Pipelinesのユーザーインタフェースから、モデルの品質評価や監視が容易に行えるとする。

ビジュアルにフローを示せる

 「例えば、データのクレンジングや特徴量抽出を行うパイプラインと、画像分類や物体検知のための既存アルゴリズムを利用するパイプラインの2つをつなげて新しいシステムを構築することもできる」(メハンナ氏)

 Kubeflow Pipelinesには、Googleが開発したさまざまなツールが組み込まれているという。例えば、Googleは「TensorFlow Extended(TFX)」という、データのバリデーション、変換、モデル分析、デプロイメントなどで公正性を確保するためのライブラリ群を提供しているが、これらを簡単につなぎ合わせてワークフローを構築できる。

AI Hubは機械学習のための総合カタログ

 一方、AI Hubは機械学習のためのワンストップカタログ。

 「データエンジニアやビジネスユーザーが、一からAIソリューションを構築するのではなく、最良のAIソリューションをベースとして作れるようにしたい」(メハンナ氏)

 Kubeflow Pipelinesで作った各種パイプライン、Jupyter Notebook、TensorFlowモジュールなどのリポジトリとして機能。まずGoogleはAutoMLを部品として使えるようにするのをはじめ、同社のさまざまな機械学習関連チームが構築した資産の一部をここで公開する。他の誰でも、自身の作ったものを公開できる。今後はマーケットプレイス機能を持たせたいという。

AI Hubの概要

 Google傘下のKaggleなどが管理しているデータセットも、このカタログに掲載される。ただし、データ自体がここにホストされるのではなく、リンクを置くようだ。

 ユーザー組織は、AI Hubをオンプレミスで動かし、機械学習関連ツールのプライベートリポジトリ/カタログとして使うこともできるという。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。