大規模分散データ処理フレームワーク「Apache Spark 1.6」正式リリース：より高速に改良

大規模分散データ処理フレームワーク「Apache Spark 1.6」がリリースされました。メモリマネジャーなどの変更、拡張が行われ、より高速になっているようです。

» 2016年01月07日 13時59分公開

　米Databricksは2016年1月4日（米国時間）、高速な大規模分散データ処理のフレームワーク「Apache Spark」の新版となる「Apache Spark 1.6」正式版のリリースを発表しました。

Announcing Spark 1.6（Databricks Blog）

　 Spark 1.6では、よく使われるデータフォーマットの1つであるParquetの読み込みに、新しいParquet Readerを導入。いくつかの処理のバイパスやコードの最適化を行った結果、ベンチマークでこれまで1秒当たり290万行の読み込み速度だったものを1秒当たり450万行まで、約50％改善したと説明されています。

　また、Spark 1.6ではこれまで設定により固定されていた実行用のメモリ領域とキャッシュ用のメモリ領域の大きさを、新しいメモリマネジャーの導入によって自動的に最適化できるように改善。手動での最適化を不要にし、実行速度の向上に貢献しました。

　直近で導入された「DataFrame」とJavaVMのオーバーヘッドを改善する実行エンジンの「Project Tungsten」は、Sparkの実行速度の改善に寄与しました。

　Spark 1.6ではDataFrameを拡張したDataset APIが追加されました。Dataset APIでは、コンパイル時にデータの静的型付けチェックをすることで、ScalaやJavaの実行速度を向上させることが可能になっています。

機械学習関連のアルゴリズムも追加されています

（本記事はPublickeyから許可を得て＠IT向けに加筆修正して転載しています。転載元）

いまさら聞けないDeep Learning超入門（1）：ニューラルネットワーク、Deep Learning、Convolutional Neural Netの基礎知識と活用例、主なDeep Learningフレームワーク6選
最近注目を浴びることが多くなった「Deep Learning」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく連載。初回は、ニューラルネットワーク、Deep Learning、Convolutional Neural Netの基礎知識と活用例、主なDeep Learningフレームワーク6選を紹介する。
800ノード超のSparkクラスターを運用するユーザーも：Sparkのエンタープライズ対応が「成熟」――Clouderaが宣言
HadoopディストリビューターもあらためてSparkへの注力をアピール。既に800ノード超のSparkクラスターを運用するユーザーも存在するという。
OpenStack、Docker、Apache Sparkなどが対象：特定処理の高速化をFPGAで実現――ザイリンクス、IBM
「OpenStack」や「Docker」「Spark」といったデータセンターアーキテクチャ向けに、特定の処理にFPGAをアクセラレーターとして利用する仕組みをIBMが正式に展開する。コンピューティングリソースの負荷を低減し、エネルギー効率を高める。
特集：IoT時代のビジネス＆IT戦略（3）：知らないと大損する、Apache Sparkの基礎知識と3つのメリット
社会一般から大きな注目を集めているIoT（Internet of Things）。だが、その具体像はまだ浸透しているとはいえない。今回は、IoTやビッグデータのキーテクノロジとして注目されている「Apache Spark」について、Sparkを製品に取り込んでいる日本IBMの土屋敦氏と、数多くの企業のデータ分析を担うブレインパッドの下田倫大氏に話をうかがった。
IBM Insight 2015：データ分析基盤をApache Sparkベースに置き換え、BluemixではSparkサービスも――米IBM
米IBMは、年次イベント「IBM Insight 2015」で、データアナリティクスに関する複数の発表を行った。ビッグデータ分析基盤はApache Sparkベースになり、PaaS「Bluemix」上でもApache Sparkサービスを提供する。CognosはセルフサービスBIを念頭にUXシナリオを再設計している。