Special
» 2020年12月09日 10時00分 公開

顧客に応じて最適な画像認識技術を提供するための基盤:成熟した「画像認識」技術、企業の課題を解決できるか

機械学習技術の発達と5Gなどの大容量高速通信の普及により、業務プロセスへ画像認識技術を適用しやすくなってきた。具体的な問題解決に使いたいというニーズが高まる中、さまざまな画像認識パッケージからどれを選べばよいのかが分かりにくい。

[PR/@IT]
PR

 画像認識技術が企業活動のさまざまなシーンで活用され始めている。オーソドックスな事例でいうと、製造業では工場のベルトコンベヤーを流れる物体を監視カメラで認識し、不良品を検知するといった取り組みが実用化している。流通業やサービス業では店舗や施設の監視カメラで入退場する人の数を把握したり、人の回遊行動を分析して、販売促進につなげたりしている。

 より広い空間でも画像認識技術が役立っている。ドローンで空撮した映像を用いて農地での雑草の検出や生育の数値化を進めたり、航空写真から各建物のアンテナ有無を調査したりすることもできる。特殊な使い方としては希少種生物密漁への水際対策の一環として、生物の種別判定に画像認識技術が使われている。これは環境省とドコモで進めている検証だ。このようにさまざまな取り組み事例がある。

アンテナの有無の調査や、希少種生物の判定に役立つ(出典:NTTドコモ)

 画像認識に代表される新しいテクノロジーが脚光を浴びた背景には、少子高齢化に伴う労働人口の減少や働き方改革の取り組みがある。ハードウェアや画像認識を支える機械学習技術の発展により、これまで機械化が難しく目視で確認してきたような業務を代替する働きが期待できるようになってきたのだ。

NTTドコモの長尾快星氏

 新型コロナウイルス感染症(COVID-19)の拡大と新しい生活様式が重要視される中、さらなる画像認識技術の活用に期待も高まっている。物理的に離れた者同士がコミュニケーションをとる場合、画像や映像による情報伝達が重要な要素の一つになるからだ。

 画像認識技術で企業の取り組みを支援しているNTTドコモの長尾快星氏(5G・IoTビジネス部 ソーシャルイノベーション推進・ソリューションデザイン担当)は、こう話す。

 「かねて画像認識ソリューションを提案してきた身からすると、これまでもカメラを用いて業務効率化や自動化に取り組むニーズはありましたが、ここ数年のハードウェアの進化や深層学習、強化学習などの機械学習技術の進化、さらに5Gに代表される通信の大容量化や高速化の進展を受けて、画像認識をもっと業務プロセスに組み込んでいこうという機運が高まってきています。『画像認識技術で何かできないか』から『画像認識技術を用いて具体的にこんなことを実現させたい』というニーズへと変わってきています」(長尾氏)

NTTドコモの酒井俊樹氏

 NTTドコモで画像認識技術の開発に取り組む酒井俊樹氏(サービスイノベーション部 第2サービス開発担当 ドコモAIスペシャリスト)も、次のように補足する。

 「画像認識はITに強い先端企業の取り組みというイメージがありましたが、今はそのようなフェーズを過ぎて、画像認識が多くの企業の課題を解決する現実解になってきています。画像認識が実装しやすい環境が整ったことで多くの担当者が『この課題は画像認識で解決できそうだ』と理解し活用するようになりました」(酒井氏)

パッケージの取捨選択が難しい! 画像認識の今日的課題とは

 もっとも、画像認識技術の活用が広がる中で、課題に直面する企業も増えてきている。課題は大きく3つに整理できる。

 まずは画像認識技術に関する製品や関連情報が増えたことで、どれが自社に適しているのか判断が難しくなったことだ。

 「幸いなことに、NTTドコモは数多くの企業から画像認識活用について幅広い相談を頂いております。現場の担当者から耳にするのは、自社が抱える課題をある程度分かっていても、それを解決する適切な製品が何であるのかが非常に分かりにくいことです。アナログな物体を撮影し、認識させる流れになる以上、製品を紹介しているWebサイトを見ただけではそれを判断できず、実際に適用してみないと効果が分からない。技術は成熟してきているのに、その『目利き』が難しく、現場での活用が進みづらいという状況です」(長尾氏)

 2つ目は、パッケージ製品として提供されるため、カスタマイズが必要になることだ。

 「パッケージとして提供されている製品をそのまま適用すれば費用対効果は高いのですが、そうしたパッケージはまれのように思います。ある程度まで学習済みの学習モデルが提供されるとはいえ、実際には現場ごとに解決すべき課題が微妙に異なります。お客さまも高い品質(認識精度)を求められるため、最適化するためにカスタマイズやチューニングを施す必要があります。その結果として高コストになってしまっています。また、ニーズが細分化されていることもあり、目的に沿った画像認識の学習モデルを保有しているソリューションプロバイダーが存在しなかったり、データを活用するまでに多大な時間がかかったりすることも多いのです」(長尾氏)

 3つ目は、専門エンジニアやハードウェアなど、画像認識を活用するための環境整備の難しさだ。

 「機械学習ベースの画像認識技術を組み込んだ製品を実現させるには、プログラミングの知識はもちろん、深層学習や強化学習の仕組み、学習モデルの実装に関する知識が不可欠です。ただ、ユーザー企業側でそういった専門知識を身に付けている人材を確保することは依然として厳しいのが現状です。費用対効果が見えない中で、学習モデル構築のためにハードウェアを調達することも難しい。そのため『取りあえずやってみる』という試行錯誤がしにくい状況になっています」(酒井氏)

 AI(人工知能)やIoTの取り組みではしばしば「PoC(概念実証)疲れ」といった言葉が聞こえてくる。技術が成熟化し、パッケージとして利用しやすくなった今日でも、導入時のハードルはまだまだ高い現実があるのだという。

 こうした課題を解消することを目指して、NTTドコモが2020年5月に提供を開始したのが「ドコモ画像認識プラットフォーム」だ。

「ドコモ画像認識プラットフォーム」には3つの特徴がある

 ドコモ画像認識プラットフォームの目的は、NTTドコモの画像認識エンジンを活用して、ユーザー企業やパートナー企業が用途に応じた画像認識ソリューションを手軽で容易に開発、利用できるようにすることだ。このサービスはNTTドコモが提供するクラウド「ドコモオープンイノベーションクラウド」で構築されている。必要なデータをアップロードするといった簡単な操作をするだけで、用途に応じた画像認識のコアエンジンを簡単、スピーディーに開発できるようになるという。

 さまざまなベンダーがこうした「AIプラットフォーム」ともいうべき製品を提供している。そうした中でドコモ画像認識プラットフォームには大きく3つの特徴がある。

 1つ目はユーザー自身で学習モデルを独自に作成できる点だ。

 「画像認識ソリューションを構築する際には、認識対象が写った画像データを収集してデータ識別のための情報を付与するアノテーションと呼ばれる作業を実行します。ここまではテクニカルな専門知識が不要な作業です。その後、データをAIに学習させて学習モデルを作成し、作成した学習モデルを基に画像を識別する推論の仕組みを実現する必要があります。ドコモ画像認識プラットフォームを利用すれば、学習から推論の仕組み構築までの専門技術と多大な時間、コストがかかるこうした作業を容易に実施できます」(酒井氏)

ドコモ画像認識プラットフォームの概要(出典:NTTドコモ)

 2つ目はNTTドコモが開発した豊富な画像認識エンジンをAPIで提供すること。既に提供しているものと今後提供を予定しているものを合わせて6つのエンジンがある。既に提供されているものは、個々の被写体が画像のどこに写っているのかを判定し、座標を返す「物体検出エンジン」と、一定の画像特徴を持つ被写体をカテゴリー分類する「一般物体認識エンジン」の2つだ。

 今後は自然画像中の文字領域を認識する「文字認識エンジン」、事前に登録された被写体の絵柄から被写体を一意に特定する「特定物体認識エンジン」、形状や色、柄を用いて画像データベースから類似する画像を検索する「類似画像検索エンジン」、人体の各関節の位置を認識し、姿勢を推定する「姿勢推定エンジン」をAPIとして提供する予定だ。

 3つ目の特徴はドコモオープンイノベーションクラウドの特性を生かした点だ。同クラウドはドコモネットワーク内の設備に構築されており、高セキュアで低遅延なサービス提供を実現している。

 「『クラウドダイレクト』というオプション機能を用いることで、インターネットを介さずにスマートフォンやカメラから画像認識エンジンが稼働するクラウド基盤まで直接画像データを送信できます。ドコモの設備だけを通ってデータを伝送する閉域通信を実現できますので、お客さまの姿や個人情報が載った書類などのセンシティブな情報が映り込んだ画像データを安全に利用できます。さらに通信経路が最適化されているため、低遅延化を実現できます」(長尾氏)

ドコモ網を用いて画像データをやりとりするメリット(出典:NTTドコモ)

SIerやパートナー、ユーザーと一体となって取り組みを推進する

 ドコモ画像認識プラットフォームは、NTTドコモの研究開発部門が2010年ごろから開発に取り組んできた画像認識技術の集大成というべきものだ。当時はまだ現在のような深層学習技術が発展しておらず、パターンマッチングによる画像認識が中心だった。

 その後技術がブラッシュアップされ、2017年には、法人営業部門と研究開発部門、顧客が三位一体となって、チームを結成し、課題解決や製品提供に取り組む「TOPGUN」(トップガン)プロジェクトがスタートした。2020年には世界最高峰と言われるデータ分析競技会「KDD Cup 2020」で3部門入賞を果たすなど、AIやビッグデータビジネスで培ってきた分析能力が高い評価を受けている。こうした実績あるエンジニアの技術を基に提供されるのが、ドコモ画像認識プラットフォームだ。

 認識エンジンを組み合わせて実際にサービス化に至った事例の一つが「棚割画像認識サービス『棚SCAN-AI』」だ。これは、「物体検出エンジン」と「特定物体認識エンジン」という2つのエンジンを組み合わせたサービスだ。店頭の陳列棚をスマートフォンのカメラで撮影することで、誰でも簡単に短時間で陳列をデータ化できる。

 「2つのエンジンにサイバーリンクスの商品画像データベースを組み合わせて実現しています。例えば、小売業者が手間をかけずに棚割計画と店舗実態のギャップを把握したいといったケースで利用したり、メーカーや卸売業者が得意先店舗を巡って売り場シェアをチェックし、棚割データへの落とし込みをしたいといったケースで利用したりしています」(酒井氏)

 もう一つの事例はナビプラスのメニュー「NaviPlusレコメンド」での提供だ。これは、ナビプラスのレコメンド技術と「類似画像検索エンジン」を組み合わせて、オンラインショップ上で見た目が似ている商品をレコメンドするものだ。対象商品の「種類」「柄」「色」を解析して、似ている商品を検索し、類似度が高い商品を抽出する。

 「ドコモ画像認識プラットフォームを利用すると、お客さま自身で保有している画像データを用いて、任意の学習モデルを作成し、それを搭載した画像認識エンジンをAPIで利用できるようになります。どのパッケージを選んでいいか分からない課題やカスタマイズにコストがかかる課題、人材やITインフラが確保できないといった課題を解消できます」(長尾氏)

 ドコモはTOPGUNの取り組みのように、顧客やパートナーと連携して製品の開発と提供を推進する構えだ。2020年度はオンラインでのセミナー活動も積極的に実施していくとのこと(NTTドコモのセミナー)。5Gやクラウド運用などネットワークに強みを持つドコモが提供する画像認識技術は、国内企業の有力な選択肢の一つになるだろう。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:株式会社NTTドコモ
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2020年12月25日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。