ヤフー、ビッグデータ分析を超高速化する「高次元データの高速検索技術」をOSS化 GitHubで公開広くエンジニアに使ってもらいたい

ヤフーがビッグデータ分析分析領域の最先端技術となる、高次元データの高速検索技術「NGT」をオープンソースソフトウェアとして一般公開。同様の主流/先端技術と比べて、言語データ/画像特徴データを約12倍以上高速に検索できるという。

» 2016年11月25日 11時30分 公開
[@IT]

 ヤフーは2016年11月24日、ビッグデータ分析に向けた高次元データ検索技術「NGT(Neighborhood Graph and Tree for Indexing)」を、オープンソースソフトウェア(OSS)として公開したと発表した。

 NGTは、高次元データと定義されるテキストや画像、商品、ユーザーデータといった複数の特徴を持つデータを大量のデータベースの中から高速に検索する、いわゆるビッグデータ分析を高速化する技術。同社によると、言語データと画像特徴データを、同様の主流/先端技術と比べて、約12倍以上高速に検索できるという。特に言語データに関しては、2016年8月に開催された自然言語処理分野の国際会議「ACL 2016(54th Annual Meeting of the Association for Computational Linguistics)」で論文として採択され、その有用性が高く評価されたとしている。

 言語データについてのNGTの高速性を同社が実際に測定したところ、検索適合率90%とする200万件のデータから検索した場合で、既存の類似技術の中で特に高速とされる「SASH」では約2.4ms(ミリ秒)かかったのに対して、NGでは約0.6msだった。また、既存の類似技術の中で主流とされる「FLANN(Fast Library for Approximate Nearest Neighbors)」(約7.4ms)と比べると、約12.3倍高速だった。

 一方、画像データについては、検索適合率90%とする1000万件の画像特徴データを抽出するのに、既存の類似技術の中で最も高速とされる「直積量子化手法(PQ:Product Quantization)」では約7.9msかかったのに対して、NGTは約1.4ms。同じくFLANN(約18.9m秒)と比べると、約13.5倍高速だった。

photo 既存の類似技術との速度/精度比較(1000万件の画像特徴データを対象に検索を行った場合)

 NGTについて同社は、次の2つの応用分野を挙げている。

 1つは、ニュースを中心とするコンテンツのパーソナライズ配信や、運用型ディスプレイ広告の広告配信精度の向上だ。テキストや画像、商品、ユーザーデータなどについて、近似したデータのマッチングを高速化できるという。

 もう1つは、データの名寄せなど、企業内に蓄積されているものの、活用/分類しきれていないビッグデータを活用しやすい形に置き換える、データ連携/変換/統合分野だ。NGTにより、多くの項目があり、フォーマットも入力方法もバラバラで、構造化されていない大量のデータも高速に照合できる。これは、AI(Artificial Intelligence:人工知能)の活用に求められる、質の高いビッグデータ分析と知見の生成/発見につながるとしている。

 NTGはソフトウェア開発プロジェクトの共有Webサービス「GitHub」で入手できる。同技術に関係する特許の実施権も無償で提供する。この他、NGTを活用したスマートフォンアプリとして、スマートフォンのカメラを任意の商品にかざすと「Yahoo!ショッピング」内の最安値ストアのページを開く「サイヤスカメラ」を開発。「Yahoo!ラボ」などで実験的に公開している。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。