連載
» 2017年10月04日 05時00分 公開

「私の一部はスタンフォード大学で開発されました」:「ナイトライダー」の「K.I.T.T.」を、2017年のテクノロジーで解説しよう (3/5)

[米持幸寿(Honda Research Institute Japan),@IT]

車内での搭乗者との会話

K.I.T.T.の対話システムが搭載されているKNIGHT 2000のインストルメントパネル(KNIGHTRIDERコンプリートブルーレイBOXトレーラー」から引用)

 K.I.T.T.は搭乗者や外部の人間と対話する。いわゆる「音声対話技術」だ。技術的に見ていこう。

音声認識の性能

 KNIGHT 2000のインパネ中央にK.I.T.T.の対話システムが搭載されている。マイケルが話し掛け、K.I.T.T.が喋ると、中央のインジケーターがピカピカ点滅する。単純にインパネをカメラで写して声優の声が流れているだけでは「車が話している」雰囲気が出ないため、インジケーターを付けた、というのが背景にあるだろう。

 この辺りは現代の対話型インタフェースと逆だ。

 多くの対話型システムは、マイクに音が拾われていることを示すためにマイクアイコンを点滅させたり、音声波形を表示したりする。ヒューマノイドロボットでも、耳の辺りがLEDで光るというスタイルが一般的。スマホやロボットそのものが喋るときに何かを点滅させることは必須ではない。一部のロボットは目が点滅したりするが。

 現代の音声認識は性能がまだまだであり、マイクに口を近づけないと正しく認識できないのが一般的である。また、きちんと声が届いているか、きちんと認識されたか、に対して相当疑問があるため、「どう認識されたか」を目で確認する必要があり、画面に表示していたりするのだ。

 それに比べて、K.I.T.T.の音声認識に使われているマイクや認識機能の性能には驚く。

 マイクに口を近づけない形態を「far microphone(ファーマイク)」とか「distance dialogue(ディスタンス会話)」などと言う。まだまだ課題の多い分野で実現は難しいが、K.I.T.T.は当たり前のようにやっている。

 走行中でも普通に喋るだけで対話が可能で、聞き漏らしはほとんどない。この「普通に喋る」というのも重要な点だ。現代の音声認識では「音声認識が認識しやすいように喋る」必要があり、人間側がかなりトレーニングしないといけない。

 つまり、K.I.T.T.の音声認識装置は素晴らしい性能を持っており、現代では実現が難しい

 また「重戦車砲撃網大突破」で、マイケルの発言に対して「声のトーンが危険なトーンに変わってきました」とクギを刺すシーンがある。「声色(こわいろ)」から「感情」を読み取っているのである。

 現代の音声認識は、音から人の声を検出し「テキストデータ」に変換する。つまり「文字」になる。その後さまざまな処理をするので、声色はテキストデータからは読み取れない。声に含まれる感情などを読み取ろうという試みは行われているが、「危険なトーン」というものを正しく読み取るには、まだまだ道のりは長い。

インタフェース

 対話に使うインタフェースを見てみよう。搭乗者との対話にはマイクロフォンだけでなく別のセンサーも使われていると思われる。

 マイケルが運転中に居眠りを始め、パトカーに追いかけられるシーンがある。そのときK.I.T.T.が「窓にもたれ掛かっていたので」という発言をする。これはK.I.T.T.が、マイケルが車の窓にもたれ掛かっていたのを「見ていた」からであり、そのためにはマイクロフォン以外に別のセンサーが必要だ。

 Twitterなどのチャットシステムに自動応答するプログラムを「チャットボット」と呼ぶ。

 チャットボットは「テキスト対話システム」だ。テキストを音声認識(Automatic Speech Recognition: ASR)から読み込み、音声合成(Text To Speech: TTS)で出力するようにすると「音声対話システム」となる。

 キーボードやマイクといった1つの入力装置、テキスト表示やスピーカー出力など1つの出力装置で対話を行うシステムを「シングルモーダル対話システム」といい、マイクロフォン以外に別のセンサーを併用するようなものを「マルチモーダル対話システム」という。K.I.T.T.はどうやら、マルチモーダル対話システムである。

 現代の「運転アシスト技術」の1つとして「居眠り検出」の研究が盛んである。

 「デプスセンサー(いわゆるレーダー)」で「ジェスチャー認識」すれば、「傾いている」「動かない」などの特徴から、眠っていることを検出できるかもしれない。その他、「目線の動き」や「まばたき回数」などから眠気や居眠りを検出しようという研究もされている。

 しかしK.I.T.T.のセンサーは、これだけではなさそうだ。別のシーンでは「(マイケルの)出血がひどいので、運転を交代してください」とK.I.T.T.が言っている。出血していることを認識するために、カメラ映像などを使っている可能性が高い。

 しかし「出血がひどい」という「状況」を現代の画像認識の技術で判断するのは、とても難しい。

 人の状態を検出するためにカメラやデプスセンサーを併用して1つの結果を導き出そうという取り組みは「センサーフュージョン」と呼ばれている。この技術は、自動運転における周囲の状況認識のためにカメラやレーザーレンジファインダーなどを組み合わせるときにも使われる。

POINT!

K.I.T.T.の車内対話システムは、複数のセンサーを組み合わせたセンサーフュージョン技術と、音声と身体状態検出を組み合わせたマルチモーダル会話システムでできている

Copyright© 2017 ITmedia, Inc. All Rights Reserved.

TechTargetジャパン

この記事に関連するホワイトペーパー

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。