イベント
[CEDEC 2014]3Dモーションデータから擬音語を自動生成。音がなくても擬音語が自動的に表示される技術とは
こうした擬音語は,基本的には漫画家やイラストレーターのセンスに依存するものだが,これを自動的に生成することは可能なのだろうか。また,アニメーション作品で擬音語を加えるとなると,それ自体もある程度動いていなくてはならないが,これを自動化することは可能なのだろうか。
2014年9月2日から4日にかけて開催されたゲーム開発者会議「CEDEC 2014」にて,福里 司氏(早稲田大学 理工学術院 博士後期課程1年)がその可能性と現状を発表するセッションを行っている。
音がなくても擬音語を自動生成できる?
福里 司氏 早稲田大学 理工学術院 博士後期課程1年 |
だが,アニメ制作の現場においては,この方法ではうまくいかないだろう。というのも,アニメは基本アフレコであり,「先に絵があって,後から音を付ける」手順になっているからだ。したがって,音がない段階で擬音語を自動生成しなくてはならないということになる。
アニメの制作現場では,音が先にあるわけではない |
福里氏は,まず「どのようにして擬音語が作られるか」というプロセスを調査している。
一般的に,擬音語はキャラクターの個性を踏まえたうえで,その動作から作者がイメージを練り上げていく。この過程のすべてを自動化しようというわけだ。
では,擬音語を自動化するとは,いったい何をすることなのか。
この疑問は「それが分かれば苦労しないよ」「むしろそこが研究すべきポイントだよ」といった核心なのだが,福里氏は先行研究を調査することにした。はたして,擬音語というジャンルを研究してきた人は存在したのだろうか。
すると,驚くべきことに擬音語には先行研究どころか文献まであった。しかも,文献が書かれたのは1922年。実は,擬音語は年季の入った研究分野だったのである。
擬音語の研究は1922年の時点で論文があった |
その研究によると,人は擬音を見たときに一定のイメージが可能となるという。
たとえば,人は「べちゃ」という擬音語を見ると,何か汚い,あるいは何か水っぽいイメージを抱く。まったく意味の分からない擬音語であっても,「あ」の音がたくさん入っていたら何か大きなものをイメージする。
このような「擬音に対して共通するイメージ」をまとめたのが,1922年に書かれた文献である。
そして,擬音語の研究はそこで終わってしまったかというと,さにあらず。2010年頃においても,心理学などで研究が続けられている。
発音とイメージの間には一定の相関関係があるらしい |
こうした「擬音語の文字の並びから,運動や身体的特性,善悪判断の特性を連想する」という点に福里氏は注目した。この仕組みを活かせば,数値化が可能ではないかというわけだ。
実は,「擬音語のイメージを数値化する」研究は小松孝徳氏(明治大学)がすでに行っている。2012年に発表された論文によると,擬音語を構成するアルファベットの印象の総和で,擬音語は表現できるとしている。
ただし,この論文はさまざまな知見を与えてくれたが,欠点もあるそうだ。実験方法があまりにぞんざい(たとえば,アルファベットのAという文字を見せて,「どれくらいの硬さだと思うか?」というアンケートをとって評価の基盤とする)だったり,理論の前提が一方的(アルファベット26文字のうち,「印象に起因するものは13文字」と決めつけている)だったりしているという。
そこで福里氏は,この数値化のプロセスをもっと妥当にすることを目指している。
自動生成というより自動検索だが
福里氏はまず,「擬音語の印象は,その擬音語を構成する発音記号のそれぞれが与える印象を合わせたもの」という小松氏の説を踏襲している。
そのうえで,ある特定の擬音語に対して(正確にはそれぞれの音象徴について),それが発生している状況全体のさまざまなパラメータを測定する。たとえば,鉄の玉が落ちて衝突したときの擬音語であれば,その重量や落下速度,硬度などをすべてにわたって決定していくのである。
ここから実際にどのような計算をするかは,わりと専門的な話になるので割愛するが,これによって音象徴が与える印象を数値化することができる。もちろん,このプロセスには何かと印象が絡むので,本当に実用化し,かつ精度を上げていくためには,多くの被験者を用意してアンケートを集める必要があるだろう。
続いて,アニメーションの分析である。ここでも,先ほどの「擬音語が発生している状況全体のパラメータ」と同じもの(重量や速度,硬度など)を抽出する。
このパラメータに対して,それぞれの発音記号が持っている印象のパラメータを照らし合わせ,「どの発音記号が何回あればいいか」を計算していく。
この計算によって,「Bという発音が1回,Aという発音が1回,ngという発音が1回」といったような情報が得られるので,前もって用意しておいた擬音語データベースから最もマッチした擬音語を検索することになるのだ(したがって,この研究は擬音語を完全に自動生成するのではなく,あくまでも「最も適した擬音語をデータベースから検索する技術」と考えたほうが良いだろう)。
そして,最終的に画面上の表示位置や表示方向なども自動的に計算し,3Dアニメーションとして出力する。
さて,この方法だが2つの疑問がある。
1つめは,PCの処理負荷がどれくらいなのか。たとえば,ゲームで応用するとなれば処理負荷は見逃せないところだろう。
2つめは,このようにして生成された擬音語が本当に状況にマッチしているのか。これはもう根源的な問題であり,自動的に生成できても「なんか違う」では意味がない。
1つめの疑問については,負荷にして約5%程度に収まるとのこと(60fpsの動画が58fps前後に落ちる程度)。1フレーム単位で勝負が決まるゲームであればともかく,実用範囲においてほとんど問題ないと言えそうだ。並列処理なし,GPGPUなし,CPUパワーに完全依存での結果なので,最適化を図ればもっと負荷は下がるだろう。
2つめの疑問には,ある状況に対して,「素人がフィーリングで選んだ擬音語を加えた絵」と「自動生成された擬音語を加えた絵」の2パターンを用意したうえでのABテストで効果が測定されている。絵の種類は6種類で,アンケートをとった相手は500人とのことだ。
「フィーリングで選んだ擬音のほうが良い」という回答を1点,「自動生成された擬音のほうが良い」という回答を5点とした5段階評価の結果,その平均点は3.55点だった。自動生成された擬音語のほうが,よりマッチしていると判断する傾向が見られるようだ(回答数の山も4点のところにある)。
アンケートでは,「よくわからない」という回答が多めになっているが,これは擬音語が英語だった影響が大きいのではないかとのことである。実際には日本語にも対応できるが,時間がなかったため英語にせざるを得なかったらしい。
とはいえ,これはこれで面白い結果と言える。あまり馴染みのない英語の擬音語であっても,「どちらが適切か」の選択に一定の傾向が見られるのは,擬音語の持つ興味深い特性ではないだろうか。
エンターテイメントを広げる技術としても
今後の研究課題としては3つ示されている。
1つめは,発音記号の回数しかカウントしておらず,順番は考えていないということ。
2つめは,現状はあくまで擬音語をつける段階で,アニメならではの誇張表現までは到達していないこと。
3つめは,現状では衝突現象にしか対応していないということ。つまり,環境音のような擬音は表示されない。
いずれもなかなか大変そうな課題だが,これらがクリアされればアニメーターの支援のみならず,さまざまな分野に可能性が広がりうるだろう。
また,今回は「モーションデータから擬音語を生成する」という技術だが,「実際に鳴っているサウンドを元に擬音語を生成する」ことも可能ではないかとのことだった。
擬音語を自動生成し,さらに自動的に最適な位置に表示するという技術は,一見すると使いどころが限られた特殊な演出向けのように思える。
だが,この技術が実用化されれば,聴覚に障害のある人も臨場感を増した状態でゲームや動画を楽しめるのではないだろうか。また,イヤフォンからの音漏れが望ましくない環境(夜行バスなど)において,映像作品を遠慮なく視聴できるかもしれない。
いずれにしても,この技術はアニメに限らず,さまざまなエンターテイメントに応用できるはずで,今後,どのように成長していくのかを応援すると共に見守っていきたい。
4Gamer.net「CEDEC 2014」記事一覧
- この記事のURL: