連載
» 2020年07月01日 05時00分 公開

2020年、AI活用の成否を分かつ技術とは(2):AIプロジェクトの成否は「MLOps(機械学習基盤)」にかかっている

人工知能(AI)を活用して価値を提供する企業が現れる中、PoCでつまずく企業が見直すべきポイントはどこにあるのか。そして今後必要不可欠になる考え方とは何か。機械学習に必要な教師データを企業に提供するLionbridgeに話を聞いた。

[谷川耕一,@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 AI技術を活用して、実ビジネスで成果を獲得している企業が着実に増えつつある。

 ごく身近なところで言えば、定額制動画配信サービスで知られるNetflixが挙げられる。同社はレコメンドアルゴリズムに機械学習を活用。その他、機械学習を用いて成功作品の特性を見いだし、Netflixの独自コンテンツ制作に生かしたり、広告素材制作に分析結果を生かして会員獲得増を果たしたりと、AIを実益に結び付けている。

 言うまでもなく、こうした事例は同社のようなWeb系企業に限らず、一般的な企業でも表れつつある。特に、もともと分析と相性の良い文化を持つ金融、保険や、製造業におけるAI活用プロジェクトは国内でも盛んだ。

 だが、先行事例が注目を集める一方、AIや機械学習(ML)のPoC(概念実証)に取り組んだものの、次のフェーズに踏み出せない企業が少なくないという現実もある。多くの場合、新しいモデルの開発やアルゴリズムのテスト、既存のモデルの分析や解析を行う上でのノウハウや人材の不足、インフラの不備などが主な原因だが、PoC止まりになる最大の原因はそうしたところにはない。

 ではAI技術を活用して価値を提供している先行企業との間にはどのような違いがあるのだろうか。今後、AI技術を活用して価値を提供していく上で押さえておくべきポイントとは何だろうか。翻訳事業を主軸とし、「早い段階から機械学習に必要な教師データを提供する」ビジネスを展開しているLionbridgeに話を聞いた。

AI技術のPoCはどう進めるべきなのか

 Lionbridgeは、翻訳などのローカリゼーションサービスを展開している。翻訳は、まさに自然言語を処理することだ。同社は、翻訳から発展した自然言語処理関連のサービスとして、学習データ作成サービスを展開。10年以上の実績を持ち、学習データを整備する際の「データアノテーション」に関するノウハウを蓄積している。

ライオンブリッジジャパン AI事業部長 Cedric Wagrez(セドリック・ヴァグレ)氏 ライオンブリッジジャパン AI事業部長 Cedric Wagrez(セドリック・ヴァグレ)氏

 「Lionbridgeは、ML技術そのものの開発をしていません。しかし、それを支援するためのサービスを展開しています。学習データの収集や加工、音声認識のための音声合成の支援なども提供しています」と話すのは、ライオンブリッジジャパン AI事業部長 Cedric Wagrez(セドリック・ヴァグレ)氏だ。

 ヴァグレ氏は、AI活用に取り組むPoCのきっかけが「データがあるから」という理由だと失敗しやすいと指摘する。

 「まずはビジネス課題が何なのかを明確化すべきです。例えば、製造業で製品の品質管理にAIを活用する場合、『1分間に幾つ検査しその精度を90%以上にしたい』など、具体的な目的を決めておくべきです」

 目標を定めずに「データがあるから」とPoCを実施した場合、AI技術の有用性は検証できても、「ビジネスの目的に活用できるか」を実証できないという。

 「まずはビジネス課題のKPI(重要業績評価指標)を設定します。その上でどのようなAIモデルを作り、どれくらいの予測精度を求めるかを考えるのです」とヴァグレ氏。ビジネスの最終目的を理解してから取り組むことで、AI活用の成功に結び付くという。

 例えば、カーナビの音声認識ならば、きれいな音声データで学習させてもあまり意味はない。車内は走行音や振動などのノイズが含まれるため、それを考慮したモデルが必要になるからだ。つまり、最終的なビジネス目的が明らかになっていなければ、集めるべき学習データがはっきりせず、当然ビジネスに有用なモデルは作れないことになる。

学習データをどう作るか――Lionbridgeの場合

 Lionbridgeで学習データを作成する際には、ビジネスの最終目的を明確にした上で、顧客ニーズに沿ったデータ品質を定義する。例えば、高速道路の監視カメラ映像から車を抽出したい場合、昼間の明るい映像はもちろん夜間の暗い映像でも車を抽出(認識)しなければならない。つまり、実ビジネスにおいて実現したいことに合致したデータを収集して整備しなければならないのだ。「データを集めて加工するだけでなく、どのようなデータが必要でどの精度に持っていかなければならないのか、それを見極めデータの質、量を決めていかなければなりません」とヴァグレ氏は言う。

 他には、一般的な機械学習の課題も熟知している必要がある。例えば、音声認識の際には、子どもの声の認識精度が落ちる課題がある。手書き文字の認識では、左利きの人が書いた文字の認識精度が下がる傾向もある。これらの一般的な機械学習の課題も分かっていないと、適切な学習データの収集と生成は難しいという。

 「データアノテーションの一環で写真から車を抽出させるなら誰でもできるかもしれません。しかし、例えば文章の感情分析の判断は人それぞれで1人だけで判断するのは容易ではありません。判断が分かれるようなものは1人で担当するのではなく、複数の人間が判断して結論が一致したデータだけを集めるといった工夫も必要です」

「AIは開発して終わり」という誤解

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。