お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
[CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2019/09/10 19:59

イベント

[CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

ヤマハ 音響事業本部 開発統括部 SC開発部 ソフトグループ主事の藤澤森茂氏(左)と,音響事業本部 オーディオ事業統括部 商品戦略グループ主事の湯山雄太氏(右)
画像集 No.003のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか
 CEDEC 2019の2日目である2019年9月5日,ヤマハは,「感性をAI化!? サウンドデザインへのAI活用法とその未来 -SURROUND:AIにおける適用事例-」と題したセッションを行った。担当したのはヤマハで「SURROUND:AI」の開発に携わった藤澤森茂氏と湯山雄太氏である。

 そもそもSURROUND:AIとは,ヤマハ製のAVアンプが搭載する技術のことで,これ自体はゲームに直接関わるものではない。しかし,本セッションで明らかとなったSURROUND:AIの仕組みは,ゲーム分野でも応用が利きそうな話であったので,概要をざっくりと紹介してみたい。

SURROUND:AI対応のヤマハ製AVアンプ「RX-A1080」
画像集 No.002のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか


音場創生に取り組んだ30年分のノウハウを込めたSURROUND:AI


 マルチチャンネルサラウンドサウンドに対応するゲームタイトルは,今では非常に多い。対応タイトルをそれなりのサウンド環境でプレイしたことがある読者も少なくないだろう。ゆえに,サラウンドサウンド技術が作り出すリアルな環境音が,ゲームのリアリティを大幅に高めることを理解している人は多いと思う。
 マルチチャンネルサラウンドサウンド対応のヘッドセットや,PC用サウンドカードの付属ソフトウェアには,たいていの場合,再生するタイトルやコンテンツに適した音場を作り出す機能が備わっている。たとえば,再生時に「ホール」を選択すると,コンサートホールで演奏を聞いているかのような音場が得られるといった機能だ。

 藤澤氏は,こうした機能を,音場を創り出すという意味で「音場創生」と呼んでいたが,氏によると「ヤマハは,過去30年にわたって音場創生に取り組んできた」そうである。実際,筆者が知る限り,ヤマハは家庭用オーディオ機器に初めて「Digital Signal Processor」(DSP)を搭載した企業であり,DSPを使ってAVアンプや音響機器などにリアルな音場を創り出す機能を搭載していた先駆者と言っていい。

 さて,それでは音場をどうやって創り出すのかを説明したのが以下のスライドだ。このスライドはホールを例にしたもので,音を聴く人の耳には,ステージから直接聞こえる音のほかに,ホールの壁面から反射してくる音や残響音が入ってくることを示している。

音場創生の概念を示したスライド。スライドの右側がホールと,ホール内における音源のポイントを示したもの。左側は,ホールの環境を家庭のマルチチャンネルシステムで再現する例だ。青い点が仮想的な残響音の発生源で,発生源から音を発することでリアルな音場を再現する
画像集 No.004のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 そんなホールの音場を家庭で再現するために,記録した音をもとにして残響音が発生する音源をマルチチャンネルシステムで仮想的に作り出して再生することをヤマハは行っているそうだ。藤澤氏によると,ヤマハは,世界中のホールで測定した音場のデータを持っており,それをもとにマルチチャンネルシステムで100種類以上の仮想音源を創り出すことでリアルな音場を再現しているそうである。

 上述の例は,ホールという現実にある建物の音響を再現した例だが,創生という言葉が使われているとおり,単に現実の音響を再現するだけでない。映画やゲームの臨場感を高める音場を創り出すためにも,この技術が使われているという。ヤマハがAVアンプに搭載してきた機能「CINEMA DSP」がそれだ。

CINEMA DSPが持つ2つの機能。ホールのような現実にある音場を再現することと,映画やゲームのようにコンテンツの臨場感を高める音場を創り出すこと
画像集 No.005のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 コンテンツの臨場感を高める音場とは何かを示したのが,次のスライドである。映画やゲームのサウンドは,キャラクターのセリフや効果音,BGMというおおむね3種類の要素で成り立っている。それぞれの要素に対してコンテンツに適した音場を創り出すことによって,コンテンツにより没入できるようにしようというのがCINEMA DSPの狙いであるという。

映画やゲームのサウンドの3つの柱であるセリフ,効果音,BGMそれぞれの要素について,コンテンツに適した音場を与えることで没入感を高めるのが,ヤマハの定義する音場の創生だ
画像集 No.006のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 ゲームの場合,ゲーム開発側のサウンドエンジニアが,プレイヤーに聞かせたいサウンドの設計を行っている。そのサウンドを,AVアンプ側の機能で手を加えるのは認められるか否かという疑問も出てくるだろう。藤澤氏は,そうした疑問の答えを求めてスクウェア・エニックスのサウンドエンジニアとやり取りして,その結果をCEDEC 2010で発表したことがあるという。
 ざっくり言うと,「AVアンプの音場効果はゲームにとってもプラスになる」との結論に至ったそうだ。

スクウェア・エニックスのサウンドチームと交流して,AVアンプの音場効果がゲームにも有用であるという結論に至り,それをCEDEC 2010で共同発表したことも
画像集 No.007のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか
画像集 No.008のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 ただ,サウンドに詳しくないゲーマーにとっては,AVアンプやヘッドセットが用意している音場から,何を選べばいいのかわからないというのが大きな問題であろう。CINEMA DSPの場合,「調子に乗って,30以上も音場のプログラムを作ってしまった」(藤澤氏)そうで,映画向けの音場だけでも,ドラマやSF,アドベンチャーにスタンダードといった具合に数多く存在するとのこと。これだけいろいろあると,どれが適切なのかユーザーが悩むことも当然あるだろう。「どれを選んでもしっくりこない」という経験をした人もいるかもしれない。
 たとえばアクション映画を例にすると,常に効果音が鳴り響いているわけではないし,セリフが重要になるシーンもある。アクション映画だからアクション用の音場を選んだとしても,全編通してそれが最適とは言い切れないわけだ。

CINEMA DSPが抱えていた課題をまとめたスライド。そもそも音場プログラムが多すぎて何を選べばいいのか分からないという問題に加えて,選んだ音場が映画の全シーンに適切とは言えないという問題もあった
画像集 No.009のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 CINEMA DSPが抱えていた課題を解決するものとして,ヤマハが2018年に市場投入した機能がSURROUND:AIだ。AI技術を使って,コンテンツのシーンをリアルタイムに解析することで,そのシーンに最適な音場を自動選択するというのがSURROUND:AIの要点である。

SURROUND:AIでは,AI技術を使って現在のシーンを解析し,シーンに適した音場を自動的に選択する
画像集 No.010のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか


意外にシンプルなSURROUND:AIの仕組み


 SURROUND:AIがどのような仕組みを採用しているのかの説明を担当したのが湯山氏だ。
 SURROUND:AIの開発は,湯山氏が現在の部署に異動した2015年にスタートしたそうだ。AVアンプに入ってくるのは音の情報だけなので,音だけでシーンを推定しなければならないというのが,SURROUND:AIを開発するにあたっての大きなハードルであったという。

 そこで湯山氏らは,当初,音の特徴量を抽出してルールベースでシーンを判別する手法を試みたそうだ。ここで言うルールベースを簡単に説明すると,「特徴量がこうならアクションシーン,こうなら台詞のシーン」といった具合に,設定したルールでシーンを分けていく方法だ。
 しかし,この方法では誤判定が多すぎたうえに,判別の限界も見えていたので,諦めざるを得なかったそうである。

 湯山氏は,解決策を求めて数か月ほど,業務で映画を見続けたそうだ。映画好きにはうらやましいように思えるが,実際にはそうではなく「シーンをチェックするために,2時間の映画を4時間くらいかけてみるということをやっていた」(湯山氏)そうで,かなり大変な作業だったようだ。

最初に試したルールベースは見込みがなく,湯山氏は数か月に渡って映画を見続け,解決策にたどり着いたそうだ
画像集 No.011のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 その結果,湯山氏が到達した結論は意外なほどシンプルなもので,各チャンネルの音量がシーンと相関しているというアイデアだった。簡単な例を挙げるなら「セリフが重要なシーンは,フロントスピーカーの音量が一番大きいはず」というわけだ。
 実際のSURROUND:AIでは,0.2秒ごとに各チャンネルの音量を測定して,シーンを判定しているという。AVアンプが搭載するプロセッサの処理性能は,50MIPS程度しかないそうで,その性能でリアルタイムにシーンを判定しなければならないため,処理の単純さも重要だったそうだ。音量だけでシーンが判定できれば処理量も小さくて済む。これもチャンネルの音量を判定に使う大きな動機になったと,湯山氏は説明していた。

シーン判定の決め手になったのは,各チャンネルの音量だった。音量だけで判定できればAVアンプが持つ限られた性能のプロセッサでも十分処理できる利点もある
画像集 No.012のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 各チャンネルの音量がどの程度であれば,どのシーンに該当するかを判別するために,AI処理を使ったのがSURROUND:AIの大きな特徴だ。
 SURROUND:AIでは「Support Vector Machine」(以下,SVM)という手法を使っているという。SVMは,最近流行りのディープラーニングなどに比べると,やや古典的なAIの手法の1つだ。あるデータセットを持つオブジェクトをクラス分けするといった課題を処理するために使う手法で,すでにクラス分けが済んだオブジェクトを用意したうえで,それを学習させてクラス分けを行うためのデータセットにおけるしきい値を導くといったものだ。学習のためにクラス分けを済ませたオブジェクトが必要なので「教師あり学習」に分類されるAIである。

 SVMでは,データベースを構築するために教師となる分類済みのデータが必要になるのだが,データは人間が用意せざるを得ない。サンプルになる映画のシーンを手作業でラベル付け(※アノテーション)していき,それをSVMに学習させるわけだ。それだけでも大変な作業だが,湯山氏によると,音量の測定が0.2秒ごとであるためノイズが生じやすく,ノイズが生じるたびに手作業で取り除くという作業も必要だったそうで,かなり大変だったようだ。

 それに加えて興味深いのは,アノテーションの作業は1人で行わなければならないと湯山氏が強調していた点だ。というのも,「複数の人がアノテーションを行うと(シーンの)判断がブレるために,いい結果が得られない」そうである。というわけなので,たった1人で多数の映画のアノテーションを行う必要があったので,なおさら大変だったろうことは想像に難くない。

学習データに使う映画のシーン分類は,人手で行わなければならない。「これがかなり大変な作業だ」と湯山氏
画像集 No.013のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 このように,シーンの判断に各チャンネルの音量を使用したり,AI処理にSVMを使ったりといったSURROUND:AIの仕組みがセッションで明らかになったので,その気になれば他社でも真似できそうだなと思える。ただ,ヤマハが仕組みをここまで明らかにできるのは,データを作る部分がSURROUND:AIのキモになっているからだろう。仮に他社が真似しようとしても,データを作る部分がハードルになって簡単には真似できないというわけだ。

SURROUND:AIでは,特徴とシーンの関連付けを行うAIのデータづくりにノウハウが詰まっている。ゆえに簡単には真似できないというわけだ
画像集 No.014のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 このような手法により,SURROUND:AIは音だけでシーンの判別したうえで,リアルタイムに音場を切り替えている。ただ,実装にあたっては,音場の切り替わりが不自然にならないような工夫も施しているそうだ。
 湯山氏らは当初,「可能な限り短時間で音場を切り替えれば不自然にならないのでは」と予想して実装したところ,実際にはかなり不自然になってしまったそうである。そこでSURROUND:AIでは,秒単位の時間をかけてゆっくりと音場を切り替えることもあるということだった。

短時間で音場を切り替えるのは逆効果で,不自然に聞こえる。SURROUND:AIでは,秒単位の時間をかけてシーンに応じた音場に切り替えているそうだ
画像集 No.015のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか


ゲームサウンドにもAIを


 今回のセッションでは,「FINAL FANTASY XV」のプレイ動画を使ったSURROUND:AIのデモも行われた。権利の関係で画像は掲載できないのだが,なかなか興味深かったのは,戦闘中や移動中にキャラクターがセリフを言うと,SURROUND:AIがシーンの変化を検出していたところだ。ゲームでは,シーンに関係なくキャラクターが喋ることもあるので,変わっていなくてもシーンが変わったと検出してしまうことがあるようだった。

 ただ,それでも不自然にならないのがSURROUND:AIの賢いところで,時間をかけて音場を切り替えていることが奏功しているのかなという印象だった。

FINAL FANTASY XVを使ったSURROUND:AIのデモにおけるポイント。ゲームにおいてもSURROUND:AIで臨場感が高まることが実感できた
画像集 No.016のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 SURROUND:AIの概要は以上のとおりだが,藤澤氏らは,AIとゲームサウンドというテーマでゲームサウンドの開発者ともディスカッションを行ったそうで,そこで出たアイデアを紹介した。

  1. 繰り返し作業をAIに!
  2. 弟子AIを作る
  3. クオリティの底上げ

藤澤氏らとゲームサウンド開発者とのディスカッションで出たアイデアをまとめたスライド
画像集 No.017のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか
画像集 No.018のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか
画像集 No.019のサムネイル画像 / [CEDEC 2019]ヤマハ製AVアンプの「SURROUND:AI」は,リアルタイムのシーン認識をいかにして実現したのか

 サウンド開発者から出てきたアイデアで興味深いのは,「弟子AIを作る」とだろうか。ゲームのサウンド開発も,ノウハウが支配している部分が大きいそうだが,そのノウハウをAIで抽出できればノウハウの継承に役立つうえ,自分自身でノウハウを客観視できるというアイデアはなかなかおもしろい。

 SURROUND:AIが採用した,音声チャンネルの音量とシーンの相関や,SVMの応用といった仕組みは,ゲームのロジックに活かせるかもしれないと思う。ゲームにおけるAIの応用例として,興味深いセッションであった。

CEDEC 2019のセッション情報ページ

ヤマハ公式Webサイト

  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
スペシャルコンテンツ
注目記事ランキング
集計:11月18日〜11月19日