話者の動画を与えると単語を容易に修正できる手法を開発、スタンフォード大などの研究チーム言い間違いを容易に編集

スタンフォード大学などの研究者のチームが、話者の動画を容易に編集する手法を編み出した。人物の肩から上の映像を使うだけで、口にしていない単語を埋め込み、修正できる。修正方法は文字起こししたテキストを編集するだけという手軽さだ。

» 2019年06月11日 19時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 スタンフォード大学とマックスプランクインフォマティクス研究所、プリンストン大学、Adobe Researchの研究者のチームは、人物が話している肩から上の映像を手軽に編集できるアルゴリズムを開発した。

 話者の音声を文字起こししたテキストを用意し、これを編集するだけで、対応する動画が自動的に変化する。

 このアルゴリズムを使ったアプリケーションにはさまざまな使い道がある。例えば映像の中に話者の言い間違いなど、変更したい部分があった場合、文字起こしテキストを編集すれば、アプリケーションが機械学習を基に、映像内の他の場面(と、そこで話された音声)の一部や断片を組み合わせて、唇の動きと音声が同期する形で、テキストを編集した通りに映像を編集する。

 映像が自然に見えるように、アルゴリズムはインテリジェントスムージングをモーションパラメーターに適用し、目指す結果の3Dアニメーションバージョンをレンダリングする。だが、レンダリング後の顔はリアルさに欠けている。そこで最終ステップとして、ニューラルレンダリングという機械学習技術を用いて、忠実度の低いデジタルモデルを、写真のようにリアルな映像に変換する。完成した動画では唇の動きと音声の同期が取れている。

アルゴリズムの動作。肩から上の動画と文字起こしをシステムに投入後、全ての音素を入力音声と位置合わせし、各入力フレームを追跡して口の位置や表情を表す「パラメトリックヘッドモデル」を構築した。特定の単語を差し替えたい場合(図では「spider(クモ)」を「fox(キツネ)」と置き換えようとしている)、foxに類似した形態素がある動画の部分を探し出す(図では「viper(毒ヘビ)」と「ox(雄牛)」)。それぞれの動画の部分から頭部パラメーターを抽出し、最後にニューラルレンダリングで顔画像を自然な形に修正した(出典:Stanford University

 機械学習の入力情報として使うため、こうした映像編集を実現するには、40分間以上の長さの映像が必要だ。

編集後の動画をテストした結果は?

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。