ニュース
» 2018年12月07日 12時00分 公開

自社商品を購入しなかった人のデータも推定:機械学習の適用範囲を大幅に拡張、理研が手法を確立

理化学研究所の研究チームは、いわゆる「負のデータ」を収集できないために機械学習の分類技術を適用できなかった分野でも、分類技術が利用可能になる手法を確立した。「正のデータとその信頼度情報」だけから、分類境界を学習する。

[@IT]

 理化学研究所(理研)は2018年11月26日、データを「正」(当てはまる)と「負」(当てはまらない)の2つに分ける機械学習の分類問題について、正のデータとその信頼度(正信頼度)の情報だけから、分類境界を学習する手法を開発したと発表した。

 これまで負のデータを収集できないために機械学習の分類技術を適用できなかった幅広い分野でも、分類技術が利用可能になる。

 開発したのは同研究所の革新知能統合研究センター不完全情報学習チームに所属する研修生の石田隆氏(東京大学大学院新領域創成科学研究科博士課程)と研究員のガン・ニュー氏、チームリーダーの杉山将氏の研究チーム。

弱い「教師あり学習」を改善

 機械学習の分類技術とは、手書き文字認識や画像認識、迷惑メール検知、文章の意味認識などに用いられる技術。一般に、値が分かっている教師データを使ってあらかじめ学習させておき、値が未知のデータを分類する(教師あり学習)。例えば乗用車とトラックの画像を分類するには、あらかじめ教師データとして乗用車(正のデータ)とトラック(負のデータ)の画像を多数用意して学習させる。

 このように、一般に機械学習の分類技術を用いるには、正と負の両方のデータを用意する必要がある。別の言い方をすると分類技術の学習とは、正のデータと負のデータの境界に引く「線」を、複数の教師データを使って決定することだ。その際、教師データをAIが分類した値と、実際の正しい値との差を、繰り返し処理によって最小化する。

分類技術の学習では、正のデータと負のデータの間に分類境界(線)を決定する(出典:理化学研究所

 だが現実の問題では、負のデータを収集できない場合がある。例えば購買予測では、顧客が過去に自社商品を購入したデータ(正のデータ)は集められるが、ライバル商品を購入したデータ(負のデータ)は集められない。石田氏らの研究チームが開発した手法は、こうした場合でも正信頼度情報さえあれば、分類境界を学習できるようにした。

 信頼度とは、「正のデータがどれだけ正のデータらしいか」を示す情報で、そのデータが正のクラスに属する確率に相当する。例えば購買予測では、過去に自社商品を購入したときの顧客の購買意欲から得られる。

正のデータとその信頼度(正信頼度)だけから分類境界を決める(出典:理化学研究所

正の信頼度から負の値を導く

 正信頼度を利用して分類境界を学習させるに当たって、同研究チームでは、正と負の両方のデータを使って学習させた場合の分類リスク(あるデータに対してAIが予測した値と実際の値との誤差を求める関数の期待値)を、正のデータとその信頼度で表現した。

 例えばあるデータの信頼度が90%の場合は、「正のデータ90%」と「負のデータ10%」の重みが付けられた正と負2つのデータに分解する。すると、分類リスクを正のデータとその信頼度だけで表すことができた。この分類リスクを最小化することで、正のデータとその信頼度だけから精度良く学習できる。

学習回数を増やすことで分類リスクが下がり、精度が高まる(出典:理化学研究所

 さらに同研究チームは理論解析によって、この方法が統計的に望ましい性質(十分多いデータ数があれば最適な分類器が得られるという一致性など)を持つことを証明した。

 理論だけでなく、データでも手法の有効性を確認している。ベンチマークとなるデータセットを用いた実験によって、うまく学習できることも示した。開発した学習アルゴリズムは、線形モデルや深層学習モデル(ディープラーニング)など、あらゆる分類モデルと容易に組み合わせられるという。

 研究チームでは、分類技術は自然言語処理やコンピュータビジョン、ロボティクス、バイオインフォマティクスなど、さまざまな研究分野で活用されており、今回開発した正信頼度を用いた分類に対しても、今後さまざまな応用研究が行われることを期待している。そのため、実験で使用したPythonによるアルゴリズムの実装コードを、Webサイト上で公開する予定だ。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。