第164回 パソコンが表情を読む時代がやってくる?頭脳放談

Intelが2014年1月に開催されたCESで「RealSense technology」という新しい技術を発表した。カメラとマイクでさまざまな認識処理を行えるとか。空中で手を動かしてPCを動かしたり、顔でログオンしたりといったことが可能になるようだ。その先にはやはり触った感覚のフィードバックがほしいものだ。

» 2014年01月27日 05時00分 公開
「頭脳放談」のインデックス

連載目次

 Intelが2014 International CESでRealSense technologyというものを発表したというので、ちょっと公式サイトを眺めてみた(IntelのRealSense technologyのWebページ)。RealSenseという名前から、「センシング」と短絡的に受け止めると、少々筋がずれてしまうかもしれない。確かに「センシング」であるし、センシングのためにセンサデバイスを「一応」は使うのだが、センシングというカテゴリには入りきらないものだと思う。

 どちらかといえば、Intelが配っているSDKの名前である「Perceptual Computing」、勝手に訳せば「知覚コンピューティング」という方が技術の本質をついていると思う。「Perceptual Computing」という言葉だと、あまりにも硬く、何やら難しく感じられるので、多分、マーケティング段階になってRealSenseなどという「分かりやすい名前」を付けたのではあるまいか。「Using Common Senses」というキャッチコピーがマーケティング的な方向性を示している。「皆さんにお使いいただける」「皆さんの感覚(常識)に一致した技術なんですよ」という感じ。その裏には、コンピューターのユーザーインターフェースに違和感を持っている人でも直観的に使えるという主張がありそうだ(本当か?)。ましてや「コンピューティング」などというわけが分からなくなりそうなものは、後ろにそっと隠しておくわけである。

 実際、センシングに使うセンサデバイスは、カメラとマイクロフォンである。人間と一緒で目が2つ、耳が2つ、これが「コモンセンス」を支えるわけである。この手の3次元化技術では、キャリブレーションの問題があるから、何でもいいからポッと部品を持ってきて、即座にはまるというわけにはいかないだろう。それでも、カメラ(イメージセンサ)にせよ、マイクロフォンにせよ、すでに量産効果もあって「こなれている」比較的安いデバイスであることに間違いはない。大抵のノートPCやタブレット、スマートフォンなど現代のモバイルデバイスには、カメラとマイクロフォンくらいはついているから、それを少々アップグレードすれば物理的な実装には十分足りそうに思われる。しかし、単にイメージを撮る、音を録るという生のセンシングの先にこそ、Intelの売りたいものがあるようだ。

 撮るイメージは、人間の手であり、指であり、顔である。そして録る音は、当然人の声だ。つまり、コンピューターに向き合っている人間のアクティビティの大きな部分を常時センスしてしまうということである。人間なら当然できる行為であるところ。相手の顔の表情を読み、手や指の動きを追い、話を聞くという行為をコンピューターにやらせるわけだ。必要なものは生のデータから、顔や手や指の特徴を抽出し、識別し、どうなっているのか認識するための処理である。つまりはコンピューティング、演算処理である。ここにこそIntelの出る幕があるわけだ。狭く言えば画像認識、音声認識の分野といってもよい。そして当然ながらその処理すべき演算量は重い。当然、プロセッサの馬力がいるのだが、ここでは馬力の必要度が増えれば増えるほど、Intelにとってはウェルカムというべきであろう。

 しかし重いといっても、今まで不可能だったわけではない。それどころか、このごろのカメラなどは、特別に言われなくても顔認識などが常に行われている標準的な技術になっている。手や指の認識にせよ、音声認識にせよ、ほとんどの要素技術はすでに誰かがやっていたり、一般的になっていたりするものだ。しかし、これらを「3次元空間で統合」するというコンセプトが今風なのである。

 脇道にそれるが、Intel自体、このような認識処理分野での貢献が大きい。画像認識アルゴリズムの集大成というべき(集大成といってまだまだ発展途上であるが)OpenCVなどの開発でもIntelは大きな存在であり、RealSenseというものは、それらの技術開発の経験の延長上にあるように思われる。

 ただし、従来のアルゴリズムが「認識」という段階にとどまっているとしたら、RealSenseはその先を見ているようだ。「認識」して「その後どうする?」という部分である。まぁ、ゲームに使うなどという応用は短絡的すぎるといってもいいだろう。当然使えるが、そんなことは誰でも考え付くことだ。人の顔色を読んで、手振りや発話に反応する技術をどう処理したものか、という部分に踏み込もうとしているようだし、そのわりには今のところ、ありがちなところで終わっているような感じもする。誰かにすごい使い道を考えてもらいたいという感じだ。

 多分、Intelも気付いていると思うが、空中で手や指を動かしていろいろやるのもいいのだが、やはりその先にはハプティック(触れる感覚のこと)なフィードバックも欲しい。押しても押した感じのしない空気をこねくり回して画面から視覚的なフィードバックを得るだけでは、人間は納得しないのではないかと思う。こうして文章を書いていても、キーボードのストロークは一種のフィードバックとして感じられている。ましてや、指や手の動きになら、押したら押し返される感じとか、手触り的なものが欲しくなる。

 多分、クリエーションなどという心の動きはなかなか開ループで行えるものではなく、常に何らかのフィードバックがあって初めて成立するのだ。RealSenseで、人間からの3次元的情報を得られる仕組みを作ったのなら、その先には人間への3次元的フィードバックできるフィードバックアクチュエータも作ってもらいたい。多分、そういうものもIntelの目論見どおりコンピューティングパワーを必要とする。

 しかしなぁ、そんなものがあるとますますデジタルワールドから抜けられなくなる輩が増えそうで恐ろしいけれども。

筆者紹介

Massa POP Izumida

日本では数少ないx86プロセッサのアーキテクト。某米国半導体メーカーで8bitと16bitの、日本のベンチャー企業でx86互換プロセッサの設計に従事する。その後、出版社の半導体事業部などを経て、現在は某半導体メーカーでヘテロジニアス・マルチコア・プロセッサを中心とした開発を行っている。


「頭脳放談」のインデックス

頭脳放談

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。