連載
» 2020年10月26日 05時00分 公開

羽ばたけ!ネットワークエンジニア(33):音声コミュニケーションを効果的にする「AI字幕」を試してみよう

筆者が主宰する情報化研究会で「感情表現字幕システム」についてNHKテクノロジーズの岡田俊一氏に講演していただいた。AIを使った字幕(AI字幕)は効果的なコミュニケーションの実現に役立ちそうだ。

[松田次博,@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「羽ばたけ!ネットワークエンジニア」のインデックス

連載:羽ばたけ!ネットワークエンジニア

 これまで字幕というものに強い関心を持ったことがなかったが、NHKテクノロジーズの岡田俊一氏による講演「感情表現字幕システム」を聞いた後、気になり始めた。

 岡田氏によるとテレビのニュースやバラエティー番組で流れる字幕は専用のタイプライターを使って、人間がリアルタイムで打ち込んでいるのだそうだ。ニュースで字幕の表示が若干遅れるのは入力に間違いがないかチェックしているためだ。バラエティーはともかくニュースで誤りは許されない。そんな話を聞いた後でテレビの字幕を見ると大変だなあと感心してしまう。

 岡田氏の講演で紹介された「感情表現字幕システム」はこの字幕をAIで自動作成する。しかも、話し手の感情を表す文字を使うことが特徴だ。

感情表現字幕システムとは

 感情表現字幕システムはNHKテクノロジーズと大日本印刷(DNP)の共同開発で、元になっているのは大日本印刷が開発した文脈解析で感情表現フォントに変換する「DNP感情表現フォントシステム」だ。NHKテクノロジーズはこれを放送の字幕に適用することを思い付いた(発表資料)。

 感情表現フォントとは文脈から人の喜怒哀楽や恐怖といった感情を読み取って、それを表すのにふさわしい色、大きさ、形のフォントをそれぞれの言葉に適用するものだ。これを字幕に使うことで、「役立つ字幕から楽しめる字幕」にするのが感情表現字幕システムの目的だ(図1)。

図1 感情字幕システムの表示例出典:NHKテクノロジーズ

 感情表現字幕システムの仕組みは図2の通りだ。顔の位置や表情の映像をAI(人工知能)で解析して感情分析する。音声はテキスト化し文脈から感情分析する。これらを総合して感情表現字幕を自動生成する。

図2 感情字幕システムの仕組み

音声を見える化する字幕の目的とは

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。