大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリースより高速に改良

大規模分散データ処理フレームワーク「Apache Spark 1.6」がリリースされました。メモリマネジャーなどの変更、拡張が行われ、より高速になっているようです。

» 2016年01月07日 13時59分 公開
[新野淳一Publickey]

 米Databricksは2016年1月4日(米国時間)、高速な大規模分散データ処理のフレームワーク「Apache Spark」の新版となる「Apache Spark 1.6」正式版のリリースを発表しました。

Announcing Spark 1.6(Databricks Blog)

  Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒当たり290万行の読み込み速度だったものを1秒当たり450万行まで、約50%改善したと説明されています。

 また、Spark 1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネジャーの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。

 直近で導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。

 Spark 1.6ではDataFrameを拡張したDataset APIが追加されました。Dataset APIでは、コンパイル時にデータの静的型付けチェックをすることで、ScalaやJavaの実行速度を向上させることが可能になっています。

機械学習関連のアルゴリズムも追加されています

(本記事はPublickeyから許可を得て@IT向けに加筆修正して転載しています。転載元

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。