イベント
[CEDEC 2009]「バイオハザード5」制作で見せたカプコンの超こだわりサウンド制作手法
ここでは,カプコンにおけるサウンド制作環境およびその実際の使用法を実践的に講義したセッションをレポートしよう。なお,セッションで使用した実例素材は,「バイオハザード5」(PlayStation 3 / Xbox 360 / PC)だ。講師は,カプコン クリエイティブ制作部サウンド制作室から,サウンドディレクターの岸 智也氏,同じくサウンドディレクターの鉢迫 渉氏,ミキシングエンジニアの瀧本和也氏の3人が務めた。
前回(2008年)は,カプコンのサウンド制作環境の解説が中心だったため,サウンド制作に直接携わっていない人でも興味深く聴けたセッションであったかもしれない。
今回は2008年のセッションを前提に,より密度の濃い踏み込んだ内容となった。正直に言って,そのままレポートするとサウンド制作者以外にはほとんど理解不能なレベルという,受講する側にもスキルが求められるものであったため,筆者なりの解説を加えた形でお伝えしていく。
「スプリットスクリーンにおけるマルチリスナー」とは
まず,サウンドディレクターの岸 智也氏による「スプリットスクリーンにおけるマルチリスナー」からセッションはスタートした。
セッション中はとくに触れられていなかったが,通常このような環境で単純にサウンドを再生すると,両者の音のバランスが崩れ,なにがなんだかよく分からなくなってしまう。セッションでは,「MT Framework」によるその解決方法が説明された。
なお,すでにMT Frameworkという名前をご存じの人も多いだろうが,MT Frameworkはグラフィックスのみならず,サウンドを含めさまざまな機能をサポートする,マルチプラットフォーム対応の統合開発ソリューションである。本稿では,そのサウンド部分を取り上げて単にMT Frameworkと呼ぶ。
さて,同社が誇る自社製サウンド制作ツールであるMT Frameworkは,現在標準でサラウンド再生をサポートしている。5.1chサラウンドシステムの場合,その定位方法(音源が5.1chのどこから鳴るかということ)は,5本のサテライトスピーカーの合計が1.0となるとき0dB(最大出力)となる(写真2)。たとえば写真3のような場所で音源が鳴る場合は,Rスピーカー=0.25,Rsスピーカー=0.75になるわけだ。
写真2 |
写真3 |
ところが,これがスプリットスクリーンモードになると話がややこしくなる。たとえば写真4のような場合,二人のプレイヤーそれぞれの視点が異なるため,単純に2視点で二つの音を鳴らすと,1+0.8=1.8と,かなり音量オーバーになってしまう(写真5)。もちろん定位が分かりにくくなるし,下手をするとテレビなどのスピーカーを傷めてしまう可能性すらある。
写真4 |
写真5 |
したがって,スプリットスクリーンでは,単に二つの画面のサラウンドサウンド再生をするだけでは適切ではない,ということになる。分かりにくければ,PCで二つ以上の音声ファイルを同時に,通常聴いているボリュームで,1セットのスピーカーで再生してみてほしい。要はそういう状態になってしまうということである。
先の例でいうと写真7,8のようになり,リミッター係数は約0.56となる。小さいほうの音はこれを乗算することで,最終的に0.448となる。大きいほうは1.0 x 0.56で0.56だ。
写真7 |
写真8 |
ここら辺のさじ加減を計算式で導くところは,MT Frameworkがプログラマ主導で論理的に構築していることの一端を垣間見せてくれるようで興味深い。さらに言えば,おそらくすべての効果音に対して,配置してある元々の音量から随時係数を計算して,常に自動で処理しているものだと思われる。
ちょっと駆け足での説明だったので,あくまで筆者の理解だが,1プレイヤー時(つまり1スクリーンモード)は,そのシーンのリバーブ処理がそれぞれのプレイヤー用に用意されている。一方スプリットスクリーンモードでは,どうやら各プレイヤー用のリバーブを引き続き利用するものの座標で区切り,オブジェクト(音源)がその座標に触れているか座標内にある間は,そのリバーブ設定を使用するというもののようだ。
「インタラクティブミックスアプローチ」
たとえば,ゲーム内において「右に行くと部屋,左に行くと野原」という状況では,プレイヤーはどちらにも行けるし,どちらにも行かずそのまま突っ立っていることもできる。つまり音場処理は「リアルタイム」かつプレイヤーの操作に応じて「インタラクティブ」に変化する。
ゲームでは当たり前のことだが,映画やアニメなどより伝統的なコンテンツではあり得ない,特有のアプローチである。これをカプコンでは「インタラクティブミックスアプローチ」と呼んでいるようだ。
筆者が見ていて“カプコン独自”と感じたのは,2008年のセッションで紹介された「リファレンスレベルの設定」だ。ざっくり説明すると,平均音圧レベルを基準値(=リファレンスレベル)にできるだけ近づけるための制作環境とルーチンを用意して,音圧調整を行うというものだ。
アイデア自体は特別ユニークというわけではなく,古くからあった手法だと記憶しているが,これを現在前面に押し出すメーカーは,筆者が知る限りカプコンだけだ。
制作のすべてを分かっている数人のエンジニアだけではもはや完結できなくなった現在のゲーム制作において,個々人の能力によって生じるパート毎の品質差をできるだけ吸収して“平均点を落とさない”制作方法だが,ゲーム開発の現状を踏まえた非常に現実的かつ効率的な約束事と言えるだろう。
鉢迫氏によれば,音像イメージの表現方法にはいくつかの手法があるとのことで,まずは作業見積もりともいうべき「音像の視覚化」を行う。一口に音源といっても,ダイアログ(台詞)から効果音,BGMまでその種類は多岐にわたるので,これをカテゴリ別に分ける。写真13の上側にあるものほど強く聴かせたい音源となる。
また,別の角度から見た図が写真14で,プレイヤー属性の音と敵属性の音を対比したチャートになっている。こちらも上側に行くほど音量感は強くなる。視覚化してイメージをつかむことで,音の配置のさい破綻が生じたりだんだん音が大きくなっていったり……ということを防ぐことができるようだ。
写真13 |
写真14 |
ちなみに,筆者はサウンドデザイナーの端くれであるが,ここまできっちりしたイメージを構築して作業に取りかかるプロジェクトには残念ながらお目にかかったことがない。制作チームの熱意が感じられる。
別段新しい手法ではないが,MT Frameworkが音源ごとにボリュームカーブを持てるという細やかさには正直脱帽する。これを一つ一つ調整していくのは確かに専任のサウンド担当者でないと不可能であろうし,非常に忍耐のいる仕事だと思う。会社によってはこの手の作業は一切行わず,音の聞こえ方が破綻している作品も多いが,カプコンではそういうことがないようにサウンド担当者が気を配っていることが分かる。
ちなみに残響は自然の残響(ホール/室内など)がさまざまで,音に関わる人以外には非常に複雑に聞こえるが,演算により擬似的に作りだされる人工的なリバーブは,主にドライ音(リバーブのない“生”の音)+初期反射音(部屋の壁などにぶつかって反射する音)+残響音の三つで構成され,通常初期反射音と残響音を併せて「リバーブ」と呼ぶ。また,ドライ音に対して「ウェット音」(処理されてリバーブがかかった音だからウェット)とも呼ばれる。
このリバーブ音に対しても別個に距離に応じて変換するボリュームカーブが用意されており,カプコンサウンドチームのこだわりぶりがよくわかる。
写真17の例では,20mまでは遠くなるにしたがってウェット音が逆に強くなり,20m以降急激に減衰するカーブ形状となっている。現実に自然界でこのような音になることはあまりないが,演出上効果的だと判断したということなのだろう。
平たく言うと,サラウンドリバーブを使用したStereo-to-Surroundの一種なのだが,定番な分だけ効果は大きい。あえて迫力を出したい音源をメインに「クワッド」にするところがむしろアイデアだと思う。
ちなみにほとんどのゲームでは,インタラクティブパートとカットシーンの切り替えがスムースであることはなく,カットシーンだけがいい音になってしまったり,なんだかちぐはぐになってしまっていたりする。
これを解消するため,「バイオハザード5」ではまずカットシーンとの距離感を合わせることから始めたそうだ。さらに前述のリファレンスレベルを合わせることで,かなりスムースな切り替えが可能になったとのこと。もちろん自社スタジオでのすりあわせ(微調整)も怠っていない。
写真21のスライドだが,読者が見ると当たり前のことのように感じるかもしれない。しかし,インタラクティブパートの効果音やボイス,BGMの総数(=音源の総数)はおそらくゲーム全体で数万に上ると思われる。
それを各シーンごと,微に入り細に入り「一期一会」の信念(鉢迫氏は「1チャンス」という言い方をしていた)で完遂するのである。じつに大変な仕事だと思う。
もちろんシステムが自動制御してくれる部分もあるのだが,プレイヤーが不自然に感じない音,“すごい”と感じる音というのは,けっきょくのところ自動制御以外の部分の努力が非常に大きいのだ(筆者は以前効果音の制作/配置/調整などもやったことがあるので比較的理解しやすかった)。この多大な苦労とそれを少しでも軽減するための工夫,さらによく聴かせるための努力に素直に敬意を払いたい。
「バイオハザード5」カットシーンミキシング
写真22 |
写真23 |
まずは今回の制作スタイルについて。定番となる米digidesignの音楽制作システム(DAW,Digital Audio Workstation)の「Pro Tools|HD」とそのコントローラ「Icon」を使用している。ユニークなのは,「バイオハザード5」では映画制作の本場ハリウッドに“近い”スタイルで制作を行っている点であろう。
すなわち,2セットの「Pro Tools」を2名のエンジニアが役割分担しながら同時にファイナルミックス(ダイアログ=台詞/効果音/BGMの三つをミックスしていく最終ミックスのこと)していくというスタイルを取っている(写真23)。
瀧本氏も述べていたのだが,通常ハリウッドのスタイルは,3セット(3チェーンともいう)のコンソールに3名のエンジニアで同時にファイナルミックスを行うのが定石だ。しかし,エンジニアが2名であるという点とスタジオのサイズの問題から,このような変則的なスタイルになったという。
また,「バイオハザード5」のミキシングコンセプトだが,作品の舞台となる“アフリカの砂漠”のイメージを大切にし,ダイアログ(台詞)やフォーリー(人間が動いた時の衣擦れや歩く音)で世界観を演出していく方向性だったという。
アフリカの砂漠というと,多くの人の頭の中には“乾いた空気”や“灼熱の太陽”が浮かぶだろう。これを映像だけでなく,音でも表現しようという試みである。また衣擦れや足音は,効果的に使えば非常に作品のリアリティを増す。どちらも作品の方向性を「感覚的に」演出する非常に重要な要素であろう。
この録音品質が非常に高かったため,プリプロダクション時(いわゆる「デモ状態の曲」)には使用されていたシンセサイザは一部を残してほぼ不要になったという。瀧本氏いわく「音像はやや後ろに引っ込んだが,低域の迫力が増し,高域のきらびやかさが増した」とのこと。
ちなみに解説すると,音像がやや後ろに引っ込んだのは部屋のリバーブ成分がたっぷりあるので,前述の話でいうとウェット音が多いから。低域の迫力はハリウッドで「Thunder Drums」などと呼ばれている,クラシックでは使わない楽器も含めた大人数編成のパーカッション部隊が担っていると思われる。高域はブラス(トランペットなど)の演奏/録音がよいからくぐもった印象にならず,前に出てくる音なのであろう。
昨年題材となった「ロスト プラネット エクストリーム コンディション」同様,世界的な人気作である「バイオハザード」シリーズの5作目も,サウンド制作者がブランドに安住することなく不断の努力を続けていることが分かるセッションであった。他社の開発者にとっては実践的で意義深いものであったと思う。
キーワード
(c)CAPCOM CO., LTD. 2009 ALL RIGHTS RESERVED.
(c)CAPCOM CO., LTD. 2009 ALL RIGHTS RESERVED.
(C)CAPCOM CO., LTD. ALL RIGHTS RESERVED.