シゴトで使える「データサイエンティスト」に必要なスキルセットってどんなもの?Database Expertレポート(1)

データサイエンティスト育成プログラムの先生に、使えるスキルセットって何だろう、という疑問をぶつけてみた。いわく、座学だけじゃ不十分なのだそうです。

» 2013年03月25日 17時05分 公開
[原田美穂@IT]

 ビッグデータブームに乗って、データ分析スキルを持つ人材が嘱望される機会が増えつつあるようだ。技術者の多くも、いち早くこうしたスキルを身に付けようと、勉強会などの活動への参加も活発になっている(関連イベントレポート)。統計解析に特化したプログラミング言語Rを学んだり、統計解析の学習をしたりと、意欲的に学習する人々が増えているようだが、果たして、実務で必要なスキルセットはどのようなものなのだろうか。

 EMCジャパンでは2012年5月から、日本国内において、実務におけるデータ分析業務のスキルセットを包括的に学習するためのプログラム「Data Science and Big Data Analytics」を実施している(関連記事)。

「Data Science and Big Data Analytics」プログラムのテキスト。DVD版の提供も行っている

 プログラムは米EMCが開発したもの。米国とほぼ同時に講座を開設した。2012年度は既に5回開催されており60人がカリキュラムを修了している。編集部では日本語版の講師を担当しているEMCジャパン エデュケーション・サービス EMCトレーニング・センター・ジャパン シニア・インストラクター 寺田肇氏らに話を伺った。

◇ ◇ ◇

編集部 受講者の内訳はどのような傾向でしょうか?

EMCジャパン エデュケーション・サービス EMCトレーニング・センター・ジャパン シニア・インストラクター 寺田肇氏(以降、寺田氏) カリキュラム立ち上げ当初は、我々のパートナー企業が多かったのですが、徐々にユーザー企業の方々の参加が増えています。具体的には銀行やキャリア企業、直近ではWeb系の解析事業を行っている企業の方の参加実績もあります。

編集部 同様の取り組みは以前からある統計解析ツールベンダなども提供しています。それらとの違いは何かあるのでしょうか?

寺田氏 我々のプログラムのユニークな部分は、データ分析そのものの知識だけでなく、それを周辺の部門とどのように共有し、成果として示すことができるか、を念頭に置いている点です。

 例えば、初日はそれこそビッグデータとは何か、といった座学からスタートしますが、データ分析に必要なさまざまなロジックやツールも実践形式で学んでいきます。これらの要素はカリキュラムの重要な部分ですが、これが全てではありません。

 基礎知識を得た後には、データそのものをどう捉え、扱うか、といった分析の前に必要となるデータクレンジングのための知識や、あるいは具体的な分析結果の視覚的な表現の作法、効果的な意思決定支援の手法なども体系的に学べるようにしています。

編集部 現在、日本国内でもデータサイエンティストとしてのスキルセットを習得しようとしている技術者が増えつつあります。勉強会などの個人ベースでの情報収集に積極的な人たちが増えている印象です。ロジックを学ぶ人たちが多いようですが、それだけではデータサイエンティストのスキルセットとしては不十分なのでしょうか。

寺田氏 もちろん、データを扱う以上、統計解析を行うための数学的な基礎スキルやそれをロジックに落とし込むための技術的なスキルは重要です。しかし、それを実務で活用する場合にあっては、その前後のプロセスをいかに理解しているかが非常に重要になります。

 我々のカリキュラムでは、実務におけるデータ分析のプロセスを、図のように定義しています。実に6つのフェイズがあり、それぞれで何をなすべきかを理解していなければ、正しい結果を導くことは難しいと考えます。

データ分析の流れ(資料提供:EMCジャパン)

編集部 先ほど、プログラムの参加者の中には、ユーザー企業もSIパートナーも含まれる、というお話がありました。実践形式でのカリキュラムでは、個々の参加者の方々が持つ事前知識には、かなりの差異があるように思いますが、こうした点はどのようにカバーしているのでしょう?

寺田氏 多くの参加者は、データ分析ツールは使えるしロジックも理解しているけれどデータベースそのものはよく分からない、あるいは逆にデータベースアプリケーションは理解しているがデータ分析部門が何をやっているか分からない、といった課題を持っています。

 実践ではグループワーク形式で、複数人のグループで1つの課題をこなします。米国でよく使われている統計用のサンプルデータを基に、さまざまなスキルセットを持った方々が共同で議論します。このプロセスの中で、実際に先ほどお見せした6つのフェイズそれぞれの専門スキルを持った人たちが、ご自身の周囲にある業務の方々が持つスキルセットを理解していくことが多いようです。この課題については自分ではカバーし切れないが、隣の部門であれば解決ができる、といった気付きがあるようです。むろん、カリキュラムの中でも説明しますが、身をもって実感される方が多いのです。

編集部 ストレージベンダとしてデータサイエンティスト支援をしている、という意図はどこにあるのでしょう。

寺田氏 むろん、我々はビッグデータ分析に適したデータベースである「Greenplum」、NAS製品群「EMC Isilon」といった製品を持っています。将来的にはそうした製品の利用者が増えることを期待していますが、いまはその前段階。データを活用できる人材が絶対的に不足しています。日本国内でもデータをきちんと活用して業務をより良いものにしていくためのスキルセットとノウハウを持った人材がもっと必要なのです。

 我々はパートナー企業やエンドユーザー企業向けのカリキュラムだけでなく、2012年度には、学生向けの講座も開設しています。また、コンサルティングサービスも別途実施しています。例えば、エンドユーザーの方がカリキュラム終了後、実際に自社内でデータ分析部門を立ち上げるような場合でも、やはり1人だけではなかなか難しい部分が多いのも事実です。そうした方々の支援を約半年程の期間で支援しています。

 プロジェクトチームの立ち上げから3カ月間は、どのように立ち上げるのが効果的かについて、保有データの状況を基に議論し、次の2カ月ほどで立ち上げを、そして安定した運用プロセスが回るようになるまでを支援しているのです。

 これも、もちろん自社製品を導入していただければベストですが、まずは、データ活用が社内できちんと生かされるという経験や気付きがあってこそ。そのためのベストプラクティスを提供することに主眼を置いているのです。

編集部 カリキュラムと併せて認定試験制度も実施していますね。

寺田氏 認定資格はEMCが授与するものですが、試験で求められるのは製品に特化したノウハウではなく、実務におけるデータ分析を定着させるために必要な、普遍的な内容です。

 技術者側からすると、認定データサイエンティストとしてスキルを明示できれば、プリセールスの場面で有益なことが多いようです。認定者の方の中でもデータ分析にかかわる提案で「引っ張りだこ」になっている人も少なくないようです。

編集部 2013年度のプログラム実施はどのようになっていますか?

寺田氏 現在、非常に参加要望が多く、現段階において半年間で既に6回の開催が決定しており、昨年度の倍のペースとなっています。また、認定資格を得るだけであればカリキュラムを受講する必要はなく、試験のみでも受験が可能になっています。


カリキュラムの概要
日程 1日目 2日目 3日目 4日目 5日目
内容 ・ビッグデータの概要
・分析実務の現状
・データサイエンティストとは
・業界別のビッグデータ分析
・データ分析のライフサイクル
・R言語の基礎知識
・データの調査と分析
・モデル構築と評価理論
・K平均法クラスタリング
・アソシエーションルール
・線形回帰
・ロジスティック回帰
・単純ベイズ分類器
・決定木
・時系列分析
・テキスト分析
・非構造化データの分析(MapReduceとHadoop)
・Hadoopエコシステム
・In-Database分析――SQLの要点
・In-Database分析で活用する先進SQLとMADlib
分析プロジェクトの実施と運用
・最終成果物の作り方
・ビジュアル化のテクニック
<課題チャレンジ データ分析ライフサイクルの適用業務(ケーススタディ)>

◇ ◇ ◇

 EMCがプログラムを開発する意図は、取材内の発言にもあったように、長期的に見れば同社の業務に結び付くものかもしれない。しかし、企業におけるビッグデータ活用というキーワードが注目を集める中、必要とされるスキルセットを、米国発のグローバル企業がどう見ているかがよく分かる内容であることも事実だ。

 このカリキュラムのテキストを実際に見て面白いのは、プログラムの最後段で、表現することの重要さを強調している点。生成したグラフの色、比較データの選定1つで、課題や問題がよりスムーズに共有できる可能性がある。今後の読者の参考となれば幸いだ。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。