イベント
[CEDEC 2012]表情による,言語を超えたコミュニケーション。「表情認識の簡易化と活用」
表情は世界共通のコミュニケーション
藤井氏は映画「ファイナルファンタジー」のシーケンススーパーバイザーや,「ファイナルファンタジー XII」のムービーディレクターなどを務めてきたクリエイターだ。これまでにも,音声を認識してCGキャラクターの唇の動きを同期させる(リップシンク)用のプログラムなどを開発し,作業の省力化に成功した実績を持っている。
旧来のコンピュータの役割は「高速・自動で省力化することによる作業効率のアップ」にあったが,現在は「表現手段」にまでなっており,今回の認識技術は表現手段として開発したと藤井氏は語る。
世界にはさまざまな言語があり,言語が異なると円滑なコミュニケーションは困難だが,顔の表情は言語によらない世界共通のコミュニケーション手段だ。丸と点を組み合わせたようなシンプルな絵でも表情を理解することができるが,静止画だとコミュニケーション手段としては弱いのではないか,と藤井氏は指摘する。笑っていた人が泣き出したりなど,表情が動きを伴っていれば,より一層人の関心を引き,コミュニケーションを高められるという。
ここで氏は自作プログラムのデモンストレーションを行った。藤井氏がカメラに向かって表情を変えるとCGキャラクターの顔も同じように動く。驚き,笑い,怒り……藤井氏とCGキャラクターが同じ表情をするのだ。
ペンギンと人が同じ表情をする。表情パラメータ化の秘密
藤井氏のプログラムは,カメラで顔を撮影したあと,「顔認識」に続いて「表情認識」を行い,その結果をCGキャラクターに反映させている。顔認識と表情認識は同一視されがちだが,中身はまったく異なる技術だという。
顔認識は普段我々が使っているデジカメでおなじみだ。画像の中から顔と思われる部分を抜き出し,顔面画像データベースと比較することで,画像内に顔があるのか,あるとすればどこなのかといった情報を取得する。
一方,表情認識は顔がどんな表情をしているのかを認識する。顔画像から目や唇の周囲,鼻の下など,表情を変えると動く複数の特徴点を抽出し,特徴点をつなげた際の歪みを見ることで表情が分かる。笑顔になるとカメラが自動的に写真を撮影する「スマイルシャッター」や,CGのキャラクター表現などに使用されている技術だが,藤井氏はこれをSNSやオンラインゲームのコミュニケーション手段に応用することを考案した。
顔認識を行い,そのあとに表情認識を行うのは,最初に顔認識することで無関係な部分を無視できるため,処理が軽くなるというメリットがある。抜き出された顔は,内蔵された15種類の基本画像から特徴点が定められる。基本画像は顔のパーツをそれぞれ最大限に動かした際のもので,これによりプログラムが移動量の限度を認識する。ある程度素早く表情を動かしても問題なく対応できるという。
特徴点のデータをそのまま扱う方式ではデータ転送と処理がどうしても負担となってしまう。SNSやオンラインゲームで使うのであればこれは無視できない問題だ。
そこで氏は「表情の割合をパラメータ化する」ことを考えた。特徴点のデータから顔の表情を読み取り,「普通」「笑い」「怒り」「驚き」のいずれの要素が含まれているかを数値化する手法だ。例えば「笑いながら怒っている」場合では,笑い70%+怒り30%といったパラメータになる。
この手法を使うことで処理が軽くなるだけでなく,人間以外のキャラクターと表情をシンクロさせることが可能となる。顔のパーツの動きをそのままトレースしたデータは,人間以外のキャラクターには使えない。目や口の大きさや位置がまったく異なるためだ。しかし,表情をパラメータ化してキャラクターに反映させるのであれば問題はない。
続いて,藤井氏の表情をペンギンのCGキャラクターに反映させるというデモンストレーションが行われたが,デフォルメされたペンギンは人間の顔のパーツ配置とはまったく異なっている(目や口が人間より大きいし,鼻がない)にも関わらず,藤井氏と同じような表情を見せた。
特徴点のデータをそのまま扱う方式よりデータは少ないが,表情のニュアンスはペンギンに伝わっているのだ。
バーチャル空間+自己表現が見せる未来
コミュニケーションで大切となるもう一つの要素は「声」だ。藤井氏のプログラムでは,音声認識によって口の開閉を行っているため,人間とCGキャラクターの唇の動きを正確に合わせられる。さらに前述の「表情の割合のパラメータ化」を組み合わせることにより,「感情が変化すると声色が変わる・身体を動かす」「笑っていると自動で吹き出しを出す」といったより豊かな感情表現や,「怒っているとNPCが“怒っていますか?”と問いかけてくる」といったゲーム内の条件分岐などに応用できるという。
藤井氏が取り組むこれからのテーマは,「バーチャル空間+自己表現」であると語る。氏はオンラインゲームを楽しんでおり,海外の人と会話する機会も多かった。相手が英語圏の人なら会話できるものの,それ以外の言語だと対応が難しいという経験から,海外の人に感情を伝えたいと思い,言語によらない顔認識を使うことを考えたという。
現時点ではまだ研究中の技術であるとはいうものの,藤井氏に合わせて表情を変えるペンギンの姿からは,言語によらないコミュニケーションの新たな可能性が見えてきた。
- この記事のURL: