インテル、Spark対応の分散型ディープラーニングライブラリ「BigDL」をオープンソース化GitHubで公開

インテルがデータサイエンティストのディープラーニング活用を支援する「Apache Spark」対応分散型ディープラーニングライブラリ「BigDL」をオープンソース化。GitHubで公開した。

» 2017年02月10日 11時00分 公開
[@IT]

 米インテルは2017年2月8日(米国時間)、クラスタコンピューティングフレームワーク「Apache Spark(以下、Apark)」に対応する分散型ディープラーニングライブラリ「BigDL」をオープンソース化し、GitHubで公開したと発表した。

 BigDLの提供は、業界最先端のAI(Artificial Intelligence:人工知能)の実現を支援する同社が進める戦略の一環という。インテルは2016年11月に発表したこの戦略に基づき、BigDL以外にも、Intel Nervana AI Academyを通じてAI関連のトレーニングやツールを開発者に広く提供している。

photo Intel Nervana AI AcademyのWebサイト

 BigDLは、Sparkアーキテクチャ上に構築する分散型ディープラーニングライブラリ。高度なビッグデータ分析を行うデータサイエンティストなどに向け、ディープラーニングの活用を容易にするという。

 BigDLは、データの保存、処理とマイニング、フィーチャーエンジニアリング(特徴量設計)、機械学習とディープラーニングワークロードのための統合型データ分析プラットフォームとしても機能する。BigDLにより、ユーザーは標準的なSparkプログラムとしてディープラーニングアプリケーションを作成し、既存のSparkまたはHadoopクラスタ上で実行可能。ディープラーニングワークロードで使用するデータを直接操作できるよう配置することが可能だ。BigDLは既に「Databricks Spark Platform」で稼働している。

photo GitHubで公開された「BigDL」

 インテルはBigDLの特徴として以下の3つを挙げている。

高度なディープラーニング展開のサポート

 BigDLはディープラーニングライブラリである「Torch」をモデルにしており、Tensorによる数値計算や高次ニューラルネットワークを含むディープラーニングを包括的にサポートする。ユーザーはBigDLを使って、訓練済みのTorchか「Caffe」のモデルをSparkプログラムにロードできる。

高いパフォーマンス

 高いパフォーマンスを実現するために、BigDLは「Intel MKL(Math Kernel Library)」とマルチスレッドプログラミングを各Sparkタスクで使用している。オープンソースのディープラーニングライブラリである「Caffe」「Torch」「TensorFlow」をシングルノードのXeon環境での一般的な設定で使用する場合と比べて高速に動作するという。

効率的なスケールアウト

 BigDLは、Spark上での同期SGD(Stochastic Gradient Descent:確率的勾配降下法)の効率的な実装と通信の大幅削減が可能。ビッグデータスケールのデータ分析ができるように効率的にスケールアウトできる。

 具体的には、BigDLは以下のようなシーンで効果的だという。

  • データの保存場所(HDFS、HBase、Hiveなど)と同じビッグデータ(Hadoop、Spark)クラスタ上で膨大なデータを分析する場合
  • ディープラーニング機能(訓練または予測)をSparkプログラムやワークフローに追加する場合
  • 既存のHadoop/Sparkクラスタを利用してディープラーニングアプリケーションを実行し、複数のワークロード(ETL、データウェアハウス、フィーチャーエンジニアリング、従来の機械学習、グラフ分析など)で動的に共有されるように構築する場合

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。