起動コマンドを間違える音声アシスタント、どの単語がまずいのか?AlexaやGoogle、Siriを調査

ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームは、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。その結果1000以上の音声シーケンスが見つかった。

» 2020年07月07日 19時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームが、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。

 研究チームはさまざまな音声アシスタントを対象に調査を進め、ウェイクワードとして繰り返し誤認された英語、ドイツ語、中国語の言葉をリストにまとめた。このリストは「unacceptable-privacy.github.io」で公開されている。

 研究チームが調査した音声アシスタントは、Amazon.com、Apple、Google、Microsoft、Deutsche Telekomがそれぞれ開発したものと、Xiaomi、Baidu、Tencentが開発した3つの中国語モデルだ。研究チームはこれらの音声アシスタントに、長時間にわたって英語、ドイツ語、中国語の音声素材を聞かせた。その中には、テレビドラマシリーズとして広く視聴された「Game of Thrones」「Modern Family」「House of Cards」の幾つかのシーズンの他、ニュース放送、スマートスピーカーのトレーニングに使われる音声データセットが含まれる。

 研究チームは、これらの音声アシスタント全てに光センサーを取り付けた。光センサーは、スマートスピーカーのアクティビティーインジケーターが点灯したことを、検知して記録するためのものだ。

光センサーを使って、スマートスピーカーのアクティビティーインジケーターLEDの点灯を検知、記録した(出典:ルール大学、Maximilian Golla)

 インジケーターはデバイスがアクティブモードに切り替わったときに点灯する。放送などを聞かせたときに点灯したとすれば、音声アシスタントがその音声をウェイクワードとして認識したことになる。この他、研究チームは音声アシスタントがデータを外部に送信した際に記録する仕組みも作った。

 音声アシスタントのいずれかがアクティブモードに切り替わると、どの音声シーケンスがそれを引き起こしたかを記録し、続いてどの言葉が音声アシスタントを起動させたかを手動で調査した。

 音声アシスタントがウェイクワードと誤認した音声シーケンスは1000以上に上った。発音によるものの、Alexaは「unacceptable」「election」という語に反応する。同様に、Googleは「OK, cool」に、Siriは「a city」に、Cortanaは「Montana」に、Amazonは「and the zone」に、Echoは「tobacco」にそれぞれ反応する。

誤認を防ぐ仕組みはどうなっているのか

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。