複数のスマホで撮影したビデオから「4D映像」を生成、カーネギーメロン大スタジオや特殊なカメラは不要

カーネギーメロン大学の研究チームが、スタジオや特殊なカメラを使わなくても、「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、さまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる。

» 2020年07月13日 18時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 カーネギーメロン大学(CMU)の研究チームが、特殊な設備を使わなくても「4D映像」を生成できる手法を開発した。複数の「iPhone」で撮影したビデオ映像を組み合わせ、視聴者がさまざまな角度から動きを見たり、視線を一時的に遮る人や物体を消去したりできる

複数のカメラで撮影されたビデオ映像を組み合わせ、「4Dビジュアライゼーション」を実現する。撮影されたシーンをさまざまな角度から見たり、映っている人を消したりできる(出典:カーネギーメロン大学

 このような研究の背景には、iPhoneのようなスマホが広く普及し、ビデオ撮影がごく気軽にできる環境が当たり前になったことがある。結婚式や誕生パーティーでよくあるように、さまざまな視点から独立した映像を簡単に手に入れられると、CMUロボティクス研究所の博士課程の学生であるアーユシュ・バンサル氏は語る。

 それぞれの映像が全く同じ角度から撮影されることはあまりないだろう。そうなると、単純な応用として、ある場面で撮影した人の映像を別の場面の映像に挿入する下地が整ったことになる。研究ではこれ以上の可能性も実証できた。

 「われわれはカメラの数にしか制限されない。組み合わせて使えるビデオ映像の数は無制限だ」(バンサル氏)

 バンサル氏を含む研究チームは、2020年6月に開催された仮想カンファレンス「Computer Vision and Pattern Recognition」で、4D映像を生成する「4Dビジュアライゼーション」の手法についてプレゼンテーションを行った。

スタジオの代わりにディープラーニングを利用

 このような映像は新しいものではないが、これまでは、スタジオの設備に制約されていた。複数の独立したハンドヘルドカメラで撮影した実世界の映像のビジュアル情報を融合し、ダイナミックな3Dシーンを再構築できる、1つの包括的なモデルを作成することは不可能だった。

 研究チームはこの制限を乗り越えるため、折り畳みニューラルネットワーク(CNN)を使用した。CNNはディープラーニングの一手法であり、ビジュアルデータの分析に優れている。研究チームは、シーンに固有のCNNが、シーンのさまざまな部分を作成するのに使えることを発見した。

 研究チームは、最大15台のiPhoneを使ってさまざまなシーンを撮影し、4Dビジュアライゼーション手法を実証した。撮影されたシーンにはダンス、マーシャルアーツ、ピッツバーグ国立鳥園のフラミンゴなどが含まれる。

 「iPhoneを使ったのは、誰もがこのシステムを使えることを示すためだった」(バンサル氏)

生成した映像の例を紹介

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。