データサイエンスを加速させる「TDSP」とは何か?マイクロソフトが実践指南とツールを公開

マイクロソフトが、データサイエンスの方法論などをまとめた「Team Data Science Process(TDSP)」を発表。データサイエンスのためのガイドラインやツールをGitHubで公開した。

» 2016年10月13日 11時00分 公開
[@IT]

 米マイクロソフトは2016年10月11日(米国時間)、データサイエンスにチームで協力して取り組むための方法論/事例集「Team Data Science Process(TDSP)」を発表。TDSPのガイドライン、プロジェクト構造、ツールをGitHubで公開した。

 TDSPは、データサイエンスにおけるコラボレーションやチーム学習を改善する「アジャイルで反復的な方法論」。以下の要素で構成される。

  • データサイエンスライフサイクルの定義
  • 標準プロジェクト構造
  • 分散共有型の分析インフラ
  • データサイエンティスト用のツール/ユーティリティー

データサイエンスライフサイクル

 データサイエンスライフサイクルは、ビジネス課題に対する十分な理解を出発点とする一連の体系的な手順のこと。予測分析モデルの開発と、それを利用したインテリジェントアプリケーションによる予測などもを含まれる。

 データサイエンスは反復的な発見プロセスのため、プロセスを実行しながら各手順の評価と検証が重点的に行われ、それを踏まえた仮説とモデルを精緻化することが、新たな知見の発見や適切な課題解決につながるとしている。

photo 「データサイエンスのライフサイクル」について

標準プロジェクト構造

 標準プロジェクト構造とは、明確に定義されたディレクトリ階層構造、バージョン管理されたリポジトリに保存される、標準ドキュメントテンプレート構造に基づく一連の出力成果物などのこと。複数のプロジェクトで共通のディレクトリ構造を使用し、同様のテンプレートに基づいてプロジェクトドキュメントを作成することで、チームが過去のプロジェクトに関する情報を見つけやすくなる。

 またプロジェクト構造は、プロジェクト全ての側面でチェックリストを満たすよう体制を整えることで、品質の維持向上が促進されるとしている。例えば、ドキュメントやコードなどの成果物は、全て、Git、Team Foundation Server(TFS)、Subversionなどのバージョン管理システムに保存すれば、共同作業が容易になる。タスクや機能の追跡も、Jira、Rally、Visual Studio Team Services(VSTS)などのアジャイルプロジェクト追跡システムで行う。これらの取り組みによって、コードと個々の機能の綿密な追跡が容易になり、チームにおける全体的な工数見積もりも改善される。

photo 「プロジェクト構造」について

分散共有型の分析インフラ

 TDSPでは、共有型の分析およびストレージインフラを管理することを勧めている。例えば、データセットを保存するためのクラウドファイルシステム、データベース、Apache Hadoop/Sparkなどのビッグデータクラスタ、機械学習サービスなどがあり、システムはクラウドでもオンプレミスでも構わない。

 これらによって、ローデータないし処理済みのデータセットに対して再現可能な分析ができるようになる。また、共有リソースのプロビジョニング、追跡、各チームメンバーによるリソースへの安全なアクセスのためのスクリプトも活用できる。

photo 「分析インフラの分散共有」について

生産性ツール/ユーティリティー

 TDSPプロセスライフサイクルのさまざまなフェーズを支援するツールは、生産性向上に加え、新しいプロセスの導入、実行における一貫性の実現に役立つ。

 マイクロソフトは、対話的かつ柔軟なデータ探索を支援する「Interactive Data Exploration Analytics and Reporting(IDEAR)」と、機械学習モデルの訓練と評価を支援するカスタマイズ可能な半自動化ツール「Automated Modeling and Reporting」を提供する。TDSPには、チームメンバーがチームの共有コードリポジトリにツールやユーティリティーを寄贈するための仕組みも用意されている。

photo TDSPツール

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。