1.5秒の音声で何語なのかをリアルタイムに識別――NICT、8カ国語を聞き分ける言語識別技術を開発

情報通信研究機構(NICT)は、短い発話音声から何語なのかを識別する言語識別技術を開発。1.5秒程度の音声を識別時間0.15秒以内のリアルタイムで識別する。8言語(日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシア)に対応し、何語を話しているか分からない相手の言葉も即座に識別する。

» 2018年10月19日 19時00分 公開
[金澤雅子ITmedia]

 情報通信研究機構(NICT)は2018年10月18日、人の発話が何語であるのかを1.5秒程度の短い音声を基に識別できる言語識別技術を開発したと発表した。日、英、中、韓、タイ、ミャンマー、ベトナム、インドネシアの8言語に対応する。

 同技術は、言語識別に必要な発話の特徴を精度よく抽出し、高速演算できるニューラルネットワークを活用して、1.5秒程度の短い発話でも0.15秒以内というほぼリアルタイムに識別できるようにした。

 この技術を音声認識や自動翻訳に使えば、何語を話しているか分からない外国人の言葉を即座に識別できる。

Photo 多言語識別のイメージ

 多くの音声認識アプリケーションでは、あらかじめ聞き取る言語を設定する必要があり、相手が話している言語が分からない場合には、言語の指定自体が困難だった。

 これを解決する方法として、入力された発話音声が何語なのかを識別する言語識別技術が利用されるが、従来の一般的な方式では、10秒程度の長い発話でないと識別が困難なため、音声認識アプリにはあまり実装されていなかった。

 今回、NICTでは「知識蒸留(Knowledge Distillation)」という手法を用いて、言語識別に必要な発話の特徴を精度よく抽出する長い発話用のニューラルネットワークを変換し、短い発話でも高精度かつリアルタイムに識別できる小規模ニューラルネットを構築する方式を活用した。

Photo 言語識別技術に取り入れた知識蒸留による学習のイメージ。高度で複雑な大規模ネットワーク(Teacher)が学習した知識を、軽量でシンプルな小規模ネットワーク(Student)の学習に利用する。Teacherは言語識別に必要な計算に時間がかかるが、Studentは高速演算が可能

 この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別する言語識別技術を開発し、8言語を90%以上で識別可能とした。

 米Googleがスマートスピーカー用APIとして公開している音声翻訳アプリでは、一度に言語識別できるのは4言語で、NICTでは、今回開発した方式ではこれを上回ると説明。

 今後、識別言語数の拡張や識別精度の向上を図るとともに、NICTが実証実験用に無料公開しているスマートフォン用音声翻訳アプリ「VoiceTra」にも実装する方針。また、音声翻訳アプリ向け技術として、民間企業へのライセンス提供も予定している。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。