マイクロソフト、AI研究者向けに“10万件”のデータセット「MS MARCO」を無償公開認知システム開発、汎用AI研究の推進に向け

マイクロソフトが、AIシステムの訓練に使える10万件のデータセット「MS MARCO」を公開した。匿名化された実際のデータを使った質問と回答のセットが含まれ、AIを用いた認知システムの開発を支援できるという。

» 2016年12月20日 11時00分 公開
[@IT]
photo マイクロソフトのBing検索エンジン部門でパートナーグループプログラムマネジャーを務めるランガン・マジュムダー氏

 米マイクロソフトは2016年12月16日(米国時間)、AI(Artificial Intelligence:人工知能)研究者向けに10万件のデータセット「MS MARCO」(Microsoft MAchine Reading COmprehension)の無償提供を開始した。MS MARCOは、匿名化された実際のデータを使った質問と回答をセットにした例となるデータセットで、AIを用いて人間のように質問を読んで回答できる認知システムの研究や開発に利用できるという。

 MS MARCOを公開したマイクロソフトの研究者チームは、「このデータセットは、機械学習向けデータセットの中でも極めて有用だ。匿名化された実際の会話例に基づいているからだ。このデータセットを研究者に広く無償提供することが、画像認識や音声認識で既に起こっているようなブレークスルーが、マシンリーディング(機械読み込み)でも起こるきっかけにつながることを期待している」と公開の意図を述べる。

 併せて同チームは、特定のタスクを高度にこなす「特化型AI(Narrow AI)」に対し、「汎用AI(Artificial General Intelligence)」と呼ばれる、人間と同じように思考できるAIの実現に向けた技術発展を促進できるとも期待する。

 「汎用AIの実現には、人間のようにドキュメントを読み、理解できるシステムの研究が進む必要がある。今回のデータ公開は、これを実現する一歩となる」と、マイクロソフトの検索エンジン「Bing」部門でパートナーグループプログラムマネジャーを務めるランガン・マジュムダー氏は述べている。同氏はMS MARCOに関する取り組みのリーダーだ。

 マジュムダー氏によると、複雑な質問に応答する認知システムは、まだ初期の段階にあるという。

 「Bingのような検索エンジンや“コルタナ(Cortana)”のような仮想アシスタントは、“ハヌカー(ユダヤ教徒の祭り)は何月何日から始まるか”“2000×43の解答は何か”といった基本的な質問には既に答えられる。しかし検索エンジンや仮想アシスタントは多くの場合、まだユーザーに一連の検索結果を提供するにすぎない。ユーザーが必要な情報を入手するには、検索結果をさらに調べて、情報をより分けなければならない」(マジュムダー氏)。

 この先、AI研究者が自動応答システムを改良するには、AIシステムが質問を認識し、答えを体系的に考えるように教育するための基礎訓練データが大量に必要となる。匿名化されたBingとコルタナの実際のクエリの中から、研究者にとって興味深いものを選び、質問例としてまとめたのがMS MARCOだ。その回答は、実際のWebページを基に人間が作成し、正確さも検証済みとしている。

 同チームの研究者は、「人間が現実の世界で尋ねる質問には、明確な答えがないものや、複数の答えがあり得るものも含まれる。MS MARCOの実際的な質問と答えで構成される訓練データセットを使うことで、一般的な質問のニュアンスや複雑さによりよく対処できるように、システムを教育できる」と説明している。

 さらに、マイクロソフトのディープラーニングテクノロジーセンターでパートナーリサーチマネジャーを務めるリー・デン氏によると、MS MARCOのデータは、研究者が高度なAI研究のために、ディープラーニングモデルを適用できるようにも設計されているという。

 「MS MARCOのデータセットは、実際のデータを使っているだけでなく、新世代のディープラーニングモデルを適切に理解できるようにも設計されている」(デン氏)

 マジュムダー氏は、システムが複雑な質問に答えられるようになれば、人間は、より効率的に情報を入手できるようになると語る。「例えば、学生がある融資プログラムを受けられるかどうかを知りたいとする。2016年現在は、検索エンジンで調べると幾つかのWebサイトが見つかるだろう。しかし、欲しい答えを得るには、それらのWebサイトにアクセスし、情報を読んで、内容を自身で判断しなければならない。仮想アシスタントが進化すれば、もっと答えを得やすい情報を提供してくれるようになる。さらにこの先の、例えば、“自身が融資を受ける資格があるかどうか”まで答えてくれるかもしれない」

 「世界の知識は文字で書かれているものが多いので、マシンが人のようにドキュメントを読んで理解できれば、この種のさまざまなシナリオが現実になるはずだ」(マジュムダー氏)

 MS MARCOデータセットは研究者に無料で公開されており、ダウンロードして非商業用途に利用できる。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。