既存の技術を「さらに高速化」――ヤフー、ネット広告向け機械学習技術を無償公開GitHubで特許権のライセンスも無償提供

ヤフーは機械学習技術「AnnexML」をオープンソースソフトウェア(OSS)として公開した。ユーザーのサービス利用情報とクリックした広告の組み合わせを学習し、ユーザーに対してクリックされやすい広告を高精度で予測する。

» 2017年11月17日 08時00分 公開
[@IT]

 ヤフーは2017年11月15日、新たに開発した機械学習技術「AnnexML」をオープンソースソフトウェア(OSS)として公開した。「ユーザーのサービス利用情報とユーザーがクリックした広告情報」など、数十万通りのビッグデータの組み合わせを学習し、それぞれのユーザーに合わせた「クリックされやすい広告」を高精度で予測する。

 ヤフーによれば、AnnexMLの処理速度は、同技術について論文を公開した2017年2月時点で「最速」。AnnexMLをMicrosoft ResearchとIndian Institute of Technologyの研究者らが開発した同種のビッグデータ分類技術「SLEEC」と比較したところ、AnnexMLが最大で約58倍速かったという。

画像 AnnexMLと他の既存技術との高速性比較(提供:ヤフー)

AnnexMLの処理フロー

 AnnexMLの処理フローは、「学習フェーズ」と「予測フェーズ」の2つから構成される。

画像 AnnexMLの処理フロー(提供:ヤフー)

 学習フェーズでは、ユーザーのサービス利用履歴といった情報を、数十件程度の「特徴量データ」の項目数に圧縮。ヤフーが開発した高速検索技術「NGT(Neighborhood Graph and Tree for Indexing)」を使ってグラフ構造に整理する。AnnexMLは、こうした情報に「ユーザーがクリックした広告」といったラベルデータを組み合わせ、予測モデルを構築する。

 予測フェーズでは、学習フェーズと同様の処理でデータ項目数を圧縮した特徴量データを基に、学習フェーズで構築した予測モデルでラベルデータを予測する。

特許ライセンスも無償提供

 ヤフーは、特長量データ項目数を圧縮し、NGTを活用したことで、AnnexMLの「高い予測精度と高速処理性能を両立できた」としている。

 AnnexMLの無償公開は、ヤフーが進める学術領域向けの情報発信の一環だという。同社は今回、AnnexML導入後の特許権侵害の発生リスクを抑えるため、特許権を取得。特許権のライセンスも無償提供する形でのOSS公開に踏み切った。ヤフーは今後、データサイエンス領域の研究者やエンジニアのコミュニティーに貢献し、AnnexMLのさらなる利便性向上を図りたい考えだ。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。