連載
» 2019年10月07日 05時00分 公開

DataRobot概説:データサイエンティストでない人に、データサイエンティストっぽく働いてもらおう

データサイエンティスト不足が社会問題になっている。昨今、データサイエンティストでない人でも機械学習モデルを自動生成できるツールやサービスが多数登場しているが、その一つであるDataRobotにどのような機能があり、どのようにデータサイエンティスト不足問題を改善しようとしているかを解説する。

[中山晴之,DataRobot Japan Customer Facing Data Scientist]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「DataRobot概説」のインデックス

連載目次

空前のデータサイエンティスト不足、の件について

 今、空前のデータサイエンティスト不足である。需要に対して供給が追いつかない。どれほど不足しているのか、そして将来どれほど不足することになるのか、まず、需要の面を見ていこう。

 みずほ情報総研によるAI(人工知能)人材の需給に関する試算を図1に示す。これは、経済産業省から委託されてみずほ情報総研が試算し『- IT 人材需給に関する調査 - 調査報告書』として2019年3月に公開されたものを筆者がグラフ化したものである(注:同報告書中の「CAGR(年平均成長率):約16.1%」に基づきグラフ化している)。

AI人材の需要はCAGR16.1%で伸びるという試算がある 図1 AI人材全体の需給に関する試算(みずほ情報総研の試算を筆者がグラフ化)

 このグラフからいえることは、需要は指数関数的に増大する、ということだ。

 その背景にあるのがAI利活用の増大である。
 社会の中で「AIを使って何とかしたい」企業が増えている。
 その企業の中で「AIを使って何とかしたい」部署が増えている。
 その部署の中で「AIを使って何とかしたい」課題が増えているのだ(図2)。

AIを使って何とかしたい企業・部署・課題が増えている 図2 AIが止まらない

 でも、自分たちだけでは何もできない。データサイエンティストが必要だ。しかも、一人のデータサイエンティストが取り組むことができる課題の数には限りがあるので、課題の数に比例してデータサイエンティストの数も増やさなくてはいけない。

 その結果、上記の試算によれば、2030年には、日本国内で約26万5000人のAI人材が必要となると考えられている。

 次に供給サイドを見ていこうと思うが、その前に、データサイエンティストとはどういう人なのかを知る必要がある。

データサイエンティストってどうしたらなれるの、の件について

 データサイエンティストになるのは簡単ではない。ましてや、データサイエンティストを育てるのはもっと簡単ではない。

 データサイエンティストになるためには、図3に示すような3つの知識が必要になると言われている。

データサイエンティストになるには、数学・統計学の知識、ITの技術スキル、ドメイン知識が必要になると言われている 図3 データサイエンティストとは

 まず、数学・統計学の知識が必要となる。AIを使うのは、データを使って、何かを予測したり、判別したりするためであるが、その手法アルゴリズムと呼ぶ)には非常に多くの種類がある。その中から、最も高い精度で予測/判別する手法を選び出さなければならないが、その選択はどういうデータを使って何を予測/判別するかに依存し、数学・統計学の知識(と経験)が必要になる。

 次に、ITの技術スキルが必要になる。データを使って、何かを予測したり、判別したりするためには、データから傾向を学習した「モデル」と呼ばれるものを作成する必要があるが、そのモデルを作るにも使うにもコンピュータを使う必要があるため、単にプログラミングにとどまらず、環境の構築から実装までの幅広いITの技術スキルが必要とされる。

 そして、課題の解決には、その課題特有のドメイン知識が必要となる。ドメイン知識がないと、そもそも何が課題かも分からないし、課題を特定できても、AIを使えば解決できるのか、解決するにはどのようなデータを集めたらよいのか、そしてそれらを集められるのか、得られた予測結果をどのように使ったらよいのか、その結果どれぐらいのリターンがあるのか、といったことも分からない。

 では、周りを見回してみよう。あなたの周りにこうした人はいるだろうか? 候補者ならばいるだろうか?

 求人票にこうしたスペックを書いてみよう。どれだけの応募者が見込めるだろうか?

 恐らく首を横に振っているのではないだろうか? だからこの記事を読んでいるのではないだろうか?

データサイエンティストを増やすのは難しい、件について

 2018年6月15日に閣議決定された「統合イノベーション戦略」に基づき、内閣に「統合イノベーション戦略推進会議」が設置され、『AI戦略 2019 〜人・産業・地域・政府全てにAI〜』を策定しようとしている。その2019年6月11日の第5回会議資料には、次のように書かれている(涵養=「かんよう」と読む。養成すること)。

 デジタル社会の基礎知識(いわゆる「読み・書き・そろばん」的な素養)である「数理・データサイエンス・AI」に関する知識・技能、新たな社会の在り方や製品・サービスをデザインするために必要な基礎力など、持続可能な社会の創り手として必要な力を全ての国民が育み、社会のあらゆる分野で人材が活躍することを目指し、2025 年の実現を念頭に今後の教育に以下の目標を設定:

  • 全ての高等学校卒業生が、「理数・データサイエンス・AI」に関する基礎的なリテラシーを習得。また、新たな社会の在り方や製品・サービスのデザイン等に向けた問題発見・解決学習の体験等を通じた創造性の涵養
  • データサイエンス・AIを理解し、各専門分野で応用できる人材を育成(約 25 万人/年)
  • データサイエンス・AIを駆使してイノベーションを創出し、世界で活躍できるレベルの人材の発掘・育成(約 2,000 人/年、そのうちトップクラス約 100 人/年)
  • 数理・データサイエンス・AIを育むリカレント教育を多くの社会人(約 100 万人/年)に実施(女性の社会参加を促進するリカレント教育を含む)
  • 留学生がデータサイエンス・AIなどを学ぶ機会を促進

 まず、上記のような目標を設定するのは必要だし、すばらしいことだ。

 しかし、実現するのはかなり難しい。

 まず、データサイエンティストは、本人が「なりたい」と思わなければなれない。周りが「ならせよう」とすればなるものではない。何らかのカリキュラムを修了すればなれるものではなく、継続的に勉強していくことが必要だ。

 また、教育を受ける側を増やすだけでは駄目で、教育を授ける側も増やさなければならない。すなわち、「データサイエンスとAIを理解し、各専門分野で応用できる人材」を年間25万人輩出しようとするならば、25万人を教育できる体制を整えなくてはならない。

 来年からプロ野球の試合数を2倍にするのでプロ野球選手を2倍にしよう(しかも試合の質を落とさずに)、といっているに等しいことをやろうとしている。

 そのため、前述のみずほ情報総研による『- IT 人材需給に関する調査 - 調査報告書』では、AI人材の供給は線形にしか増大しないと予測しており、2030年の供給量は約12万人にとどまると予測されている。指数関数的に増える需要と線形にしか増えない供給、ここにギャップが生まれる。

 この試算が正しければ、2030年には約14万5000人のデータサイエンティストが不足することになる。すなわち、14万5千人分の課題が未解決のまま放置される恐れがあるのだ。これは、企業にとって、社会にとって、大きな損失といわざるを得ない。

 このデータサイエンティストの需要と供給とのギャップを埋めるにはどうしたら良いのだろうか?

データサイエンティスト不足問題を改善するための手段、の件について

 データサイエンティスト不足問題を改善する手段の一つとして考えられるのが、AIの自動化である。データサイエンティストの作業を極力自動化するツールやサービスを提供することで、データサイエンティストの作業効率を大幅に向上するとともに、データサイエンティストではない人でもドメイン知識さえあればデータサイエンティストと同じ成果が得られるようにするのである。

 このAIの自動化のツールやサービスは既に提供され始めていて、大きく分けて2種類ある。

 一つは、主に音声や画像といった非構造化データを対象とした専用ツールまたは専用サービスである。「Microsoft Cognitive Services」や「Google Vision AI」「Amazon Rekognition」などが例としてあげられる。

 もう一つは、主に構造化データ(特に、表形式にフォーマットされたデータ)を対象とした汎用ツールまたは汎用サービスである。「Microsoft Azure Machine Learning」や「Google Cloud AutoML」「DataRobot」などが例としてあげられる。

 特に、後者の汎用ツール/サービスは、様々な課題の解決に適用できるため、データサイエンティスト不足問題を改善する有効な手段になり得ると期待される。ここからは、汎用ツール/サービスのリーディングカンパニーであり機能が非常に豊富なDataRobotを例にとり、AI(機械学習)がどのように自動化されるかを具体的に示していく。

DataRobotを使ってデータサイエンティスト不足問題を大きく改善する、件について

 さて、DataRobotは、AI(機械学習)の自動化により、以下の2つの効果をもたらし、データサイエンティスト不足問題を改善しようとしている*1

1. データサイエンティストの生産性を上げる

 例えば、これまで一人のデータサイエンティストが5個の課題しか取り組むことができていない状況において、生産性を倍にして10個の課題に取り組むことができるようになれば、データサイエンティストの数が2倍になるに等しい効果が得られることになる。

2. データサイエンティストではない人がデータサイエンティストと同じ仕事をできるようにする

 ドメイン知識は十分に持っており、「Microsoft Excel」を使ってデータ分析を行っている、「ビジネスアナリスト」と呼ばれる人は意外と多い。この記事を読んでいるあなたもそうかもしれないし、周りを見回せばそうした人はいくらでもいるのではないだろうか?

*1 その他、DataRobot社では、AI人材を増やすために、さまざまな有償トレーニング、無償ワークショップを提供したり、教育機関を対象にエデュケーショナルライセンスとAI人材育成プログラム教材を提供したりしている。また、お客様個別にサクセスプランを作成し、AIを使ってさまざまな課題を解決するサポートを提供している。


 そうした人が、数学&統計学の知識やITの技術スキルがなくてもデータサイエンティストと同様のことができるとしたら、どうだろう? これこそがDataRobotの目指す世界である(図4)。

ビジネスアナリストが、数学・統計学の知識やITの技術スキルがなくてもデータサイエンティストと同様のことができるようにする 図4 DataRobotの目指す世界

 具体的には、以下のような機能を持つプラットフォームを提供している(図5)。

  • 使用するデータと予測や判別の対象に応じて、最適なアルゴリズムと前処理を自動で選択する
  • 複数のアルゴリズムを使って複数のモデルを一気に高速に作成できるようにする
  • 複数のモデルの中から、課題の解決に最良のモデルを容易に選択できるようにする
  • モデルをブラックボックスにしない。どのようにモデルを作ったのか、どういうモデルができたのか、が分かるようにする
  • モデルをシステムに組み込むことが容易にできるようにする
DataRobotは、データサイエンティストではない人がデータサイエンティストと同様のことができるAIプラットフォームを提供する 図5 DataRobotの提供するAIプラットフォーム

 果たして、こんなことが可能なのか? そう疑う読者も多いだろう。

 可能なのである。だから、既に、日本国内で150社以上の企業が導入しているのである。

 百聞は一見にしかず。次章では、DataRobotのバーチャル誌上デモをご覧いただこう。

DataRobotのバーチャル誌上デモ、の件について

 これから、バーチャルなデモをご覧いただく。

 このデモは、貸し倒れを予測するデモである。新しくお金を借りに来た人が、きちんとお金を返してくれるか、くれないか、を予測する。

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。