連載
» 2019年07月01日 05時00分 公開

デーイジー、デーイジー:「2001年宇宙の旅」の「HAL 9000」を、2019年のテクノロジーで解説しよう (5/7)

[米持幸寿(Honda Research Institute Japan),@IT]

スケッチを認識する

 「2001年」に、スケッチしているボーマンにHAL 9000が「見せてください」と言い、その絵がコールドスリープで眠っている「ハンター博士」だと言い当てるシーンがある。

 この会話をするためには、幾つかの技術的ハードルがある。

推測

歩き回るボーマンを見て「仕事ですか?」と聞くために、「何かの作業で歩き回っているのだろう」と「ジェスチャー認識」で「推測」する能力

概念

ボーマンの「スケッチだ」という回答に対して「見せてください」と言うためには、ボーマンが手に持っているのが「その作品だ」という概念

画像入力と処理

カメラ(赤い目)でボーマンのスケッチを読み込み、画像処理システムでスケッチを観察する能力

理解

紙に書いてあるものが「スケッチ=絵」であると理解する能力

識別

スケッチに書かれているのがコールドスリープ装置の絵だということ、さらに、中にいるのがハンター博士であることを識別する能力

 紙、絵、装置、博士という複数の概念が複雑になっていて、とても難しい。

 今流行しているAIは、機械学習という技術がほとんどであるが、それは主に「分類」という装置である。「(0)こういう画像がハンター教授のスケッチだよ」と「(1)そうでないもの」とをまぜて大量に与えて(教師データ)覚えさせ、どちらなのかを当てさせるような機能である。

 つまり、「仕事をしている」「スケッチをしている」「紙に書いた絵」「ハンター博士」というような概念を理解できているわけではないのである。

 ただし、ボーマンが歩いてきたのを検知し、「仕事ですか」「スケッチだ」「見せてください」「ハンター博士ですね」というやりとりをするくらいの応答システムなら私にでも作れる。これは「人口無能」とか呼ばれるシナリオ再生装置にすぎない。

読唇術

 「2001年」の重要なシーンの一つが、ボーマンとフランクがPODの中で話す様子をHAL 9000がカメラで見て読唇術を使うところだ。

 読唇は画像(または映像)のみで行われることと、人が声を発する際の唇の形状の種類には限りがあり、この「限りある種類」に分類することが出発点となると、画像の「教師なし学習」という方法で唇の形状ごとに分類できると考えられる。

 口が「あ」の形をしていたら、母音が閉じたあと開いた(ま、ば、ぱ)のいずれか、舌が動いて見える(か、た、な、ら、が、だ)のいずれか、など子音も少しだけ予測できるようになる。

 しかし「た」「な」「ら」の違いなどを「見分ける」ことは難しい。

 そこで、音の並びから推測することになる。こういった並びの確率を当てる技術として「HMM」(Hidden Markov Model)や「CRF」(Conditional Random Field)といった「確率モデル」と呼ばれる手法が使われる。

 例えば、口の形が「(ま|ば|ぱ)(た|な|ら)(て|ね|れ)」のように「見える」とき、辞書の中から1番近い音に近似するものを探し出し、「これは『またね』と言ったのではないか?」と推測するのである。この処理方法は、音声認識で使われるものと近い。

 読唇技術は音声認識よりも曖昧な情報が多く、読唇術は、まだ研究の進んでいない分野である。人が「聞く」のよりも「読唇」の方が苦手なように、機械も唇の読み取りは苦手なようである。

Point!

HAL 9000が行った読唇術は難しい技術である。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。