画像をクエリに似た画像を検索

Googleイメージ検索はもう古い? CEATECは画像認識が面白い

2007/10/03

 千葉県・幕張で開催中の「CEATEC JAPAN」では画像認識技術に注目が集まっている。プロセッサの高速化と認識アルゴリズムの品質向上で、画像認識をシステムに組み込むための敷居が下がったことが背景にある。

 北海道大学の長谷山研究室は経済産業省が主導する「情報大航海プロジェクト」の一環で開発した映像の次世代検索システム「Cyber Space Navigator」をCEATEC会場で公開している。このシステムはメタデータに頼らずに動画像や音声を検索する技術。動画像や音声そのものをクエリにして検索できる。Googleのイメージ検索などと異なり、1つの動画像、音声を指定すると、その動画像、音声に似たものを検索する。

 タグなどのメタデータが不要なのは、動画像や音声をパターン化して、特徴を数値化するから。この数値を比較することで、似た動画像、音声を探し出す。動画像の検索で数値化するのは、色や構図など。音声ではコード進行やテンポ、音の波形を数値化する。キーワードを使った動画像検索では、キーワード選択によってはユーザーが求める検索結果が出せないケースがある。しかし、動画像自体で検索することで検索結果の品質を向上できるとしている。

ceatec01.jpg 「Cyber Space Navigator」。左下の画像に似た画像が検索され、表示される

 情報大航海プロジェクトでは、NHK放送技術研究所も画像認識と自然言語処理の技術を組み合わせた映像コンテンツ検索技術を公開した。この技術は、放送コンテンツに付与されている字幕データを解析し、コンテンツのシーンごとにメタデータを付ける。例えば動物の紹介コンテンツであれば、字幕データから動物の名前を読み上げるシーンを抽出。付与したメタデータを再解釈して映像をユーザーにとって意味ある単位に分割する。

 ただ、字幕データと実際の映像の内容が合致しないケースもある。例えば、「これはライオンでしょうか?」という字幕データが付いた映像が、実際はヒョウを指すケースがある。開発した技術では自然言語処理を活用し、字幕データの特徴(例えば体言止めの使用など)を認識し、映像と合致させるという。NHK放送技術研究所は映像検索のためのメタデータ制作フレームワークを公開している。

信号、看板を認識しルート案内に活用

 パイオニアは車載カメラを使った画像認識カーナビゲーションを参考出展した。車載カメラが捉えた外部の映像を解析、信号や看板を認識してリアルタイムにルートを案内する。カーナビのディスプレイに矢印や補助線、強調線を表示し、ユーザーの注意を促す。同じ画像認識技術を応用し、走行中の周辺車両の挙動を認識してドライバーに通知する機能や、道路景観を解析して、人工物が少ないなどの単調な風景が続くと別のルートをドライバーに提案する機能もある。

ceatec02.jpg パイオニアが参考出展した画像認識カーナビゲーション。矢印を映像に重ねて分かりやすく案内する

 また、東芝はCell Broadband EngineのSPE4基とフルHD対応のエンコーダ/デコーダを搭載したメディアストリーミングプロセッサ「SpursEngine」を開発。SpursEngineを搭載したノートPC「Qosmio」を展示した。同時にSpursEngineを使った画像認識のデモも公開。PCのWebカメラで手の動きを認識して、PCのリモコン代わりにする技術や、映像から顔データを抽出してサムネイルをタイムラインに応じて並べる技術などを参考出展した。

関連リンク

(@IT 垣内郁栄)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)