米AWSの製品戦略責任者に、AI関連サービスをどう展開していくのかを聞いた：AWS re:Invent 2016

米Amazon Web Servicesの製品戦略担当ゼネラルマネージャーのMatt Wood氏に、同社のAI戦略について聞いた。Wood氏はAWSにおけるサービス開発に深く関わり、責任者としてこれを率いている人物。AWS re:Invent 2016の基調講演では、AI関連の新サービスのデモを自ら行った。

» 2016年12月07日 05時00分公開

[三木泉，＠IT]

　米Amazon Web Services（AWS）は、2016年11月末に開催した年次イベント「AWS re:Invent 2016」で、同社のAI戦略が垣間見える発表をした。そこで、製品戦略担当ゼネラルマネージャーのMatt Wood（マット・ウッド）氏に、筆者が聞いたAI関連の質問と、同氏の答えをお届けする。Wood氏はAWSにおけるサービス開発に深く関わり、責任者としてこれを率いている人物。AWS re:Invent 2016の基調講演では、AI関連の新サービスのデモを自ら行った。

AIは、限られた人のための技術を誰でも使えるようにする取り組みの1つ

――今回のカンファレンスでは多数の発表があったが、最も重要なものとは何なのだろうか。また、AWSはいつも「顧客の声を聞くことで（サービス）開発をしている」と答えるが、今回発表された新サービスや新機能において、何らかのトレンドを見いだすことはできるのだろうか。

　プロダクトの開発については丸一日でも話していられるが、私自身が特に気にかけていることから説明したい。

　AWSが始まる前から、この組織の事業計画において、「資金を潤沢に持った、非常に大規模な組織にしか手の届かなかった技術をあらゆる開発者に届け、可能な限り広く使われるようにする」という目標を定めた。

米AWS 製品戦略担当ゼネラルマネージャーのMatt Wood氏

　ストレージサービスのAmazon S3から始めたが、Amazon Redshiftではデータウェアハウスを、従来型に比べ10分の1のコストで誰もが使えるようにした。このトレンドは現在も続いている。顧客は引き続き求めているし、私たちも進んで応えている。社内では、「技術ができるだけ広く使われるようにするためなら、努力を惜しまない」という考え方を持っている。

　今回のカンファレンスでも、いくつかの分野でこのことを実現している。

　1つは、Amazon EC2におけるF1インスタンスだ。FPGAによるハードウェア高速化は、これまで非常に少数の組織しか活用できなかった。これをAPIコールで呼び出せるようにした。つまりどんな開発者でも、仮想インスタンスにFPGAを結び付け、ハードウェアのカスタム設計ができるし、既存の設計を適用することもできる。AWS Marketplaceで提供されている設計を調達することもできるし、ここで自社の設計を販売することも可能だ。メディアのトランスコーディングからAIまで、さまざまな高速化ができる。

　もう1つの例はAI関連だ。非常に高度で高品質な、最先端のディープラーニング関連テクニックを、APIで呼び出せるようにしている。新発表の「Amazon Rekognition」における画像解析や顔認識、「Amazon Polly」におけるテキストの音声変換、「Amazon Lex」における自動音声認識や自然言語理解がこれに当たる。Lexは、Amazon Echoなどの音声サービスであるAmazon Alexaのベースとなっているエンジンで、これをAPI経由で使えるようにしている。

　Amazon社内では、何千人もの開発者がAIに取り組んでいる。その知識や経験の一部を、（今回発表したサービスで）外部に公開し始めた段階だ。Pollyは40種以上の音声で24言語を話せ、Alexaの声もこれに含まれている。これに音声認識や言語処理を組み合わせてLexとして提供したことで、（一般の）開発者はAlexaのようなシステムを、音声あるいはテキストを使った仕組みとして構築できる。

　Lexは「エンタープライズコネクタ（外部情報ソースとの連携機能）」で、SalesforceやMarketoと連携できるようになるため、「この顧客はどれだけ使ってくれているか」「この顧客に前回電子メールを送ったのはいつか」「前回のやり取りで顧客が受けた印象は？」といった質問を投げかけられる。

　こうして多くの企業が、ビジネスの中核部分にインテリジェンスを組み込めるようになり、（AIを活用する）アプリケーションの幅が大きく広がる。

――だが、インテリジェントアプリケーションの全てが会話型のアプリケーションではない。他の分野のAIについては、どういうフレームワークを提供しようとしているのか。

　AIに関するスキルを持たず、勉強したいとも思っていない開発者は多い。そういう人たちでも、例えば画像解析ができる。画像は海岸なのか、木があるのか、人は何人いるのか、2つの画像は同じものなのか、といった判断を機能として使える。バックエンドで動いているAI技術についてのトレーニングを受ける必要はない。

　対極にいるのがデータサイエンティストやリサーチャーだ。アルゴリズムをチューニングして自らモデルを構築し、あるいは全く新しいアルゴリズムを構築しようとしている人たちがいる。これらの人々が求めているのは圧倒的に高いパフォーマンスだ。パフォーマンスが高いほど、データを大量に使ってモデルをトレーニングし、より洗練されたものにすることができる。

　こうした人たちに対して私たちが提供できるものとしては、（前述の）F1インスタンスがあるし、数週間前に発表した「P2インスタンス」という、大量のメモリを搭載した複数のGPUを備える仮想インスタンスがある。

　また、MXNet、TensorFlow、Theano、Caffeなどのディープラーニングライブラリを活用する人たちは、そのパフォーマンスを最大限に高めることができる。

　現在の機械学習やディープラーニングに関する活動の大部分は、AWS上で行われていると考えている。Pinterestの画像解析や画像検索、ハーバード大学の糖尿病による視力低下に関する研究、Wolfram Alphaの質問応答システム、そして最もパフォーマンスの高い自動運転用画像検知システムなど、多数のAIシステムがAWS上で動いている。

　私たち（Amazon.com）は、MXNetを社内におけるディープラーニングフレームワークの第1の選択肢として推進する。コミュニティにコードをコントリビューションするし、これは私たちの今後のAIサービスの基盤ともなる。ドキュメントも整備していくつもりだ。

　（MXNetは）圧倒的なスケーリングが特徴だ。これにより、より洗練されたモデルが構築できるし、こうしたモデルをより多くのデータに適用できる。TensorFlowやCaffeについても、AWS上でうまく動くようにしていくつもりだ。一方でMXNetについては、そのスケーリング特性をとても気に入っているし、ポータブルであり、（一般の）IT機器、ロボット、モバイル機器、Webブラウザでも動かせる。メモリ効率も高く、顧客が求めている特性を全て備えている。

　従って、Amazon自身のためにMXNetへ投資するし、そのメリットをAWSのサービスにも生かしていく。

AIは、まだ親のように口出しするには早過ぎる

――AIについてもう少しよく理解するために、聞き方を変えたい。AWSのAI戦略を、例えばGoogleと比較した場合、あなたはどう表現するか？

　すでに話したように、AWSおよびAmazon全社で、何千人ものエンジニアがAIに関与している。私たちには10年以上の歴史がある。Amazon.comの「この商品を買った人はこんな商品も買っています」という20年前の機能は、おそらくWebで大規模に利用された最初の機械学習だ。

　それ以降、私たち（Amazon）は機械学習を、サービスの改善や、商品のフルフィルメントや配送の効率化など、ほぼあらゆる業務で活用してきた。新しいカテゴリの製品を開発する際にも使っている。特にAmazon Alexaは、完全にディープラーニングに基づいて実現したサービスだ。

　AWSのAI戦略は、まず中核的な基盤を提供することにある。顧客はCUDAプログラミングやGPUを利用し、自らできるだけ深く掘り下げようとしている。これを支援することが第一だ。AWSでは、（こうすべきだと）親のように口出しをすることはない。

　AI分野は、それぞれの顧客が何を必要とするかについて口出しするには時期尚早だ。今は「何が正しいアプローチなのか」を決めるには早過ぎる。従って、可能な限り幅広く、柔軟にサービスを提供していく。顧客がCUDAを呼び出したり、MXNetを活用したり、RekognitionやPollyなどの訓練済みのモデルを使ったりと、あらゆる形でAIを活用することを助けていく。顧客は目的に合った方法を自分で選択するだろう。顧客の選択肢を狭めるようなことはしない。

　以上が第1のポイントだ。第2のポイントとして、画像認識、音声認識、自然言語理解などのマネージドサービスを提供する場合、できるだけ高い品質のものを提供するということがある。最先端のアルゴリズムを使って、他よりも10倍優れたものを実現する。Amazon社内には優秀な人材が豊富にそろっている。この人たちは日夜、アルゴリズムの開発だけを行っている。そのノウハウに基づく非常に高品質なモデルを順次、外部に提供していくつもりだ、

　もう1つ重要なのは、1つ1つの機能の奥深さだ。例えば人の年齢の判断が不正確であるといった、おもちゃのようなサービスを顧客は欲しいと思っていない。深い機能を備えた高品質なモデルを望んでいる。

　例えばPollyはテキストから音声への変換機能で、表面上はシンプルな入力と出力を行うものだ。だが、膨大な数の機能を備えている。発音や音声のモデリング、正しい発音を実現するためテキストにセマンティックなマークアップを適用する機能、イントネーションやピッチの制御、多様な言語の利用までを備えている。

　高品質、機能の奥深さに加えて、AWSに期待されている積極的な価格設定が特徴だ。

　さらに、可能な限りの使いやすさを実現する。使いやすいAPIを提供する一方、Lexのように、開発環境全体を提供するものもある。LexではWebコンソールにアクセスして、即座に会話型インターフェースの構築に取り掛かり、この環境の中でテストできる。

　使いやすさとともに提供するのは、AWSの他の機能との統合だ。Amazon S3上に例えば10億の写真ファイルが保存されている場合、Rekognitionはこのデータに直接インデックスを付け、作業が終了したら教えてくれる。あなたは何もする必要がない。

AWSのAI戦略をまとめるとどうなるか

　上記でWood氏は、AWSのAI関連サービスがGoogleと比較してどのような優位性があるのかを、明確には説明していない。だが、AWSにおけるAI戦略の骨格は分かりやすくなった。まとめると、次のようになる。

　まず、最先端のAI研究・開発ができるようにインフラサービスを充実させていく。また、Wood氏は触れていないが、提供開始済みの機械学習サービス「Amazon Machine Learning」では、モデルの訓練とその結果の活用に専念できることを目的としている。

　一方でAmazon.comにおけるAI関連のノウハウを組み込んだ各種のAI機能に関する訓練済みモデルを提供していく。提供形態はAPI、そしてモデルを使って迅速にアプリケーションを構築できる環境あるいはツールを提供していく。Polly、Rekognition、Lexはこれに関する最初の発表で、今後提供する機能は増えていく。

　AIの開発フレームワークとしてはMXNetを選択している。これをAmazon社内で今後も活用していく一方、AWSのAIサービスのベースとしても活用していく。

　上記のいずれを選択する開発者も、AWSの他のサービスと組み合わせることで、迅速に実用的なアプリケーションを開発・提供できるようにしていく。

　なお、AWS re:Invent 2016では、MXNetオープンソースプロジェクトへの関与や、別途今回のカンファレンスで発表したコンテナスケジューラーBloxのオープンソース提供など、オープンソースへの取り組みに関するメッセージが聞かれた。

　Wood氏に、「なぜAWSは今回、突然オープンソースについて語っているのか」と聞いたところ、同氏は「これまでもXenコミュニティなどに対してコントリビューションをしている。ただ、オープンソースの重要性が増しており、これを使うユーザーも増えている」と答えた。