ニュース
» 2018年12月07日 12時00分 公開

自社商品を購入しなかった人のデータも推定:機械学習の適用範囲を大幅に拡張、理研が手法を確立

理化学研究所の研究チームは、いわゆる「負のデータ」を収集できないために機械学習の分類技術を適用できなかった分野でも、分類技術が利用可能になる手法を確立した。「正のデータとその信頼度情報」だけから、分類境界を学習する。

[@IT]

 理化学研究所(理研)は2018年11月26日、データを「正」(当てはまる)と「負」(当てはまらない)の2つに分ける機械学習の分類問題について、正のデータとその信頼度(正信頼度)の情報だけから、分類境界を学習する手法を開発したと発表した。

 これまで負のデータを収集できないために機械学習の分類技術を適用できなかった幅広い分野でも、分類技術が利用可能になる。

 開発したのは同研究所の革新知能統合研究センター不完全情報学習チームに所属する研修生の石田隆氏(東京大学大学院新領域創成科学研究科博士課程)と研究員のガン・ニュー氏、チームリーダーの杉山将氏の研究チーム。

弱い「教師あり学習」を改善

 機械学習の分類技術とは、手書き文字認識や画像認識、迷惑メール検知、文章の意味認識などに用いられる技術。一般に、値が分かっている教師データを使ってあらかじめ学習させておき、値が未知のデータを分類する(教師あり学習)。例えば乗用車とトラックの画像を分類するには、あらかじめ教師データとして乗用車(正のデータ)とトラック(負のデータ)の画像を多数用意して学習させる。

 このように、一般に機械学習の分類技術を用いるには、正と負の両方のデータを用意する必要がある。別の言い方をすると分類技術の学習とは、正のデータと負のデータの境界に引く「線」を、複数の教師データを使って決定することだ。その際、教師データをAIが分類した値と、実際の正しい値との差を、繰り返し処理によって最小化する。

分類技術の学習では、正のデータと負のデータの間に分類境界(線)を決定する(出典:理化学研究所

 だが現実の問題では、負のデータを収集できない場合がある。例えば購買予測では、顧客が過去に自社商品を購入したデータ(正のデータ)は集められるが、ライバル商品を購入したデータ(負のデータ)は集められない。石田氏らの研究チームが開発した手法は、こうした場合でも正信頼度情報さえあれば、分類境界を学習できるようにした。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。