HadoopとFluentdは、国内企業のビッグデータにおける事実上の標準になれるか：オープンソースとエンタープライズの関係（4）

日本企業の間でのHadoop普及に向けた課題の克服について、NTTデータとFluentdを推進するトレジャーデータはどう取り組んでいるか。この分野における一般企業とオープンソースソフトウェアの関係を探る。

» 2016年08月30日 05時00分公開

　Hadoopは、非IT産業における普及が期待されるオープンソースソフトウェアの筆頭格といえる。端的にいって、Hadoopのような幅広いユースケースに対応できる単一の商用パッケージ製品は他に存在しない。特にビッグデータ／IoTについてはこのことが当てはまる。ビッグデータ関連のパッケージについてもHadoopを前提とし、これを補完するソフトウェアやハードウェアを組み合わせたものが多い。

　では、非ITの一般企業はHadoopを使いさえすればそれでいいのか。過去約8年にわたってHadoopを活用したシステムインテグレーションを行ってきたNTTデータのシステム技術本部方式技術部課長、下垣徹氏と、トレジャーデータのソフトウェアエンジニアで、Fluentdのコミッターでもある田籠聡氏に聞いた。NTTデータは2016年6月、トレジャーデータと提携し、Fluentdのサポートサービスを提供すると発表している。

商用ビッグデータソリューションで、これを入れれば大丈夫というのがない理由

　ビッグデータ／IoT関連の課題をワンストップで解決する商用ソリューションが育ちにくい理由について改めて聞くと、下垣氏は次のように答えた。

　「ビッグデータ活用の本質は、『ツールやパッケージの導入だけで解決するものではない』という点にある。

　ビッグデータ活用の典型例であるレコメンドのように、全データを走査した上で処理を行い、結果を顧客全員に対してパーソナライズして返すという取り組みをひとつ取り上げたとしても、単純にツールからの出力を利用すればよいというわけではなく、実際にはビジネス上の要件に応じて広範なカスタマイズが必要となる。さらに、ビジネス上の要件は刻々と変化していくため、一度導入すれば終わりではなく、継続的なデータ活用のプロセスの改善とともにシステム構成もまた適応してしていかなければならない」

　NTTデータは、Hadoopを活用したシステムインテグレーションを、約8年にわたり提供してきたという。ペタバイトクラスのデータを扱う例も存在するものの、一般企業における案件の数としてはテラバイトクラスでとどまるケースも多い。データ活用のための前処理や、基幹系の業務処理の一部を担うバッチ処理の高速化が中心だ。

　一般的に知られるHadoopの適用先としてECサイト、オンラインゲームに始まり、金融機関ではマネーロンダリングなどの不正対策やリスク分析のための処理などでニーズが高まっているという。製造業では、ゼネラルエレクトリックの取り組みに代表されるように、重機を中心に予測保守などへの取り組みが進みつつあり、その前段階として、データの収集を進める企業が増えているという。一例としてNTTデータが関わった製造業でのIoT（Internet of Things）活用事例として、下垣氏は港湾混雑シミュレーションを挙げる。これは位置情報をはじめとする船舶からのデータを集約し、最適な船舶の入港順を提案するための取り組みとしてHadoopおよびSparkを利用したのだという。

NTTデータがFluentdのサポートを提供し始めた理由

　下垣氏は、Hadoopインテグレーションにおけるデータ収集に関する課題解消のため、これまでずっと手を打ちたいと考えてきたという。

　「Hadoopは、データの蓄積と処理についてはもともと強力であり、Sparkなどの併用により、処理機能はさらに充実してきた。しかし、大量データの安定的な取り込みは課題として残されてきた。『データ収集』と一口でいっても、転送で失敗が発生したときにどう対応するか、どうやって再送で重複転送が発生しないようにできるかなど考えなければならないことが多い。従来はこうした泥臭い部分を、個別のインテグレーションで切り抜けてきたが、対応の負荷が大きい。また、データ収集元が複数から成り立つシステムの場合、対応がますます困難になる」

　NTTデータは2016年6月、Hadoopに関連して、データ収集基盤ソフトウェアFluentdのサポートサービスを開始したと発表した。「これで初めて、データ収集の課題に手を打つことができた」（下垣氏）という。

NTTデータのシステム技術本部方式技術部課長、下垣徹氏と、トレジャーデータのソフトウェアエンジニアで、Fluentdのコミッター、田籠聡氏

　Fluentdとは、プッシュ型の情報送信を行う機能を備えたオープンソースソフトウェアの1つで、トレジャーデータに在籍する人々が中心となって開発が進められている。プラグインアーキテクチャが特徴で、Hadoop以外にも多様なデータ転送元および転送先に対応できるという。同様なオープンソースソフトウェアとしては、Flume、Logstashなどがある。

　では、Flume、Logstashといった競合となるオープンソースソフトウェアがある中で、なぜNTTデータはFluendを選んだのか。

　下垣氏は、Fluentdが導入の容易さと機能の拡張性を兼ね備えている点、オープンソースソフトウェアの取り組みに理解のあるエンジニアたちが在籍するトレジャーデータが開発を支えている点、そして国内外におけるFluentdの導入の広がりを重視したと話す。

「国内ではFluentdの導入が進んでいるように見受けられる。特にWebサービス関連で多用されており、雑誌の記事やインターネット上での情報も多い。エンタープライズ分野では現在、デファクトスタンダードのデータ収集ツールは存在しないが、Fluentdは徐々に広がりつつある」（下垣氏）

　海外での導入の広がりについても着目していると下垣氏はいう。

　「グーグルやAmazon Web Services（AWS）などがFluentdをツールとして使っている。彼らもFluentdの利便性を理解して採用を決めたのだと思う。NTTデータでは大規模なシステムへの導入が求められることが多いため、国内外問わず大規模なサービスで採用されていることは大きな意味がある」（下垣氏）

　「Fluentdのプラグインアーキテクチャも大きな魅力の一つだった。必要な機能は後からプラグインとして開発していけばいい。また、エンタープライズ用途ではこれからセキュリティおよび堅牢性が求められる。これらについても開発ロードマップに入っているとのことだった」（下垣氏）

　トレジャーデータの田籠氏は、下垣氏を補足して、Fluentdと他の競合オープンソースソフトウェアについて次のように話す。

　「海外では、OpenStackだとLogstashの名前を見ることが多い。一方、KubernetesではほとんどFluentdだ。現在、Cloud Native Computing Foundation（CNCF）のプロジェクトとしての採用に向けて、詰めの段階に入ってもいる。LogstashではJava VMによるオーバーヘッドが避けられないが、Fluentdではオーバーヘッドが小さい。グーグルなどは、このことに特に注目している。またLogstashにはトランザクショナルな仕組みがないが、Fluentdにはある。そのため、エンタープライズ用途に適用しやすい。

　一方、FlumeはHadoopと密結合していて、Hadoopの導入と同時に環境構築を行うケースが非常に多い。"そのため、さまざまなデータソースからのデータを、段階的に集約していくような、一般企業におけるシステムインテグレーションにはフィットしにくい。もう少しHadoopから独立していて小回りの利く、Fluentdのようなツールが適しているのではないか」

オープンソースソフトウェアとシステムインテグレーターの関係

　では、Fluentdは、オープンソースプロジェクトとしてどのように運営されていくのだろうか。今後も実質的にはトレジャーデータが一社で開発を進めていくのか。

　これについて田籠氏は、「コミッターを絞るつもりはない」と答える。

　「だが、Fluentdはまだバージョン1.0にたどり着いていないため、まずはアーキテクチャ落ち着かせたい。いろいろな企業やシステムで安心して使ってもらえるところまでトレジャーデータが主導し、大きな機能追加については、コミッター陣や外部からの提案を問わず、その後に順次取り入れていきたい。将来的には、CNCF傘下に入ることも考えて、広くコミッターを受け入れていきたい」（田籠氏）

　一方、Fluentd開発プロジェクトに対するNTTデータの姿勢は、これまでの同社のLinux、PostgreSQL、Hadoop／Sparkなどへの取り組みと変わらないと、下垣氏は話す。

　「オープンソースソフトウェアを単に使うというだけでなく品質向上の余地やトラブル対応に関し、当社なりに咀嚼して、パッチを書いたり、コミュニティに還元したりして、長期間で安定したプロダクトに育てていきたい。当社では高負荷な案件が多いため、不具合を初めて見つけて対応するケースも出てく　ると思っている」

　下垣氏と田籠氏は、そろってオープンソースソフトウェア利用における日本の特殊性を口にする。

　日本では商用、オープンソースいずれの場合でも、一般企業がITを活用する際には、システムインテグレーターが介在することがほとんどだ。ユーザー企業が自らIT製品を導入し、運用するケースは、米国などに比べると少ない。このことが、一部のオープンソースソフトウェアについては導入の妨げになる可能性がある。例えばFluentdに着目したシステムインテグレーターがいても、トレジャーデータはこうした企業に対するフルサポートができない。システムインテグレーション案件を受けることもできない。同社のような規模の企業ではリソースが足りないからだ。

　「自分たちでパッチを書いてくれるようなところでないと対応できないのが実情」（田籠氏）

　トレジャーデータが、これまで日本でFluentdのサポートを提供してこなかったのは、こうした事情があるという。NTTデータは今回、大手システムインテグレーターとして初めて、トレジャーデータとの協力体制のもとで、自社としてサポートサービスを提供したことになる。