「Apache Spark」、トップレベルプロジェクトに昇格：既に採用多数、データ分析が捗る？

Sparkプロジェクトがついにトップレベルプロジェクトに昇格。既に大手企業が採用に動く、大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークだ。

» 2014年03月03日 18時46分公開

[鈴木聖子，＠IT]

　Apache Software Foundation（ASF）は2月27日、大規模データの処理や分析に使われるオープンソースの高速エンジン「Apache Spark」がトップレベルプロジェクト（TLP）に昇格したと発表した。

　Apache Sparkは大規模データを高速かつ柔軟に処理できるクラスタコンピューティングフレームワークで、その速度や使いやすさを特徴とする。メモリ内でApache Hadoop MapReduceに比べて最大100倍の速度でプログラムを実行できるとしている。また、Java、Python、Scalaを使ってアプリケーションが開発できるAPIも提供している。

　この他、SQLクエリのフロントエンドとしてのShark、機械学習のためのMlib、描画用APIであるGraphX、ストリームデータ用のSpark Streamingなどの機能とシームレスに連携したアプリケーションの構築が可能だとしている。

　もともとは米カリフォルニア大学のAMPLabで2009年に開発され、2013年に「Apache Incubator」となって、25組織のデベロッパ120以上が開発に協力してきた。Cloudera、IBM、Intel、米Yahoo！などの大手にも採用されているという。

　ライセンスはApache License v2.0を利用。開発チームは「今後数カ月のうちに、非常にエキサイティングな機能を登場させる。Sparkのさらにパワフルなバージョンに期待してほしい」と予告している。