イベント
[GDC 2022]AIの感情を絵で表現するには? スクウェア・エニックスによる機械学習の研究発表を紹介
また,GDC本体と合わせて多くのサブイベントも組まれており,ここではそんな中の一つ,Machine Learning Summitから,スクウェア・エニックスによる公演「Machine Learning Summit: Emotional Neural Style Transfer: Expressing Character AI Emotion through Paintings」(機械学習サミット:感情的なニューラルスタイル変換:絵画でキャラクターAIの感情を表現する)の内容を紹介したい。講師は同社AI DivisionのMachine Learning EngineerであるEdgar Handy氏だ。
今回氏が語ったのは,同社が制作中のAIデモ「Wonder」に関するものだ。Wonderの概要は,CEDEC 2021でのこちらのセッションを参考にしていただきたいが,簡単にいうと,ゲーム内で感情のあるNPCを育てていくようなものである。こうしたNPCは感情や気分といった要素を備えていて,それが行動にも反映されてくる。
[CEDEC 2021]知性と感情を持ったNPCとのコミュニケーションを実現するスクウェア・エニックスの取り組み
オンライン開催されたCEDEC 2021の初日となる2021年8月24日,スクウェア・エニックスによる次世代キャラクターAIに関する2つの講演が行われた。実験用デモプログラム「Wonder」に実装された意思決定システムや感情システムにより,相互にコミュニケーションできるNPCの実現を目指すという。
キャラクターの気分が反映された絵
キャラクターの感情については,CEDECの講演ではPADの3要素での解説が行われていたが,今回はそのうちのPとD,つまりPleasure(快)とDominance(支配)の2軸で気分が表されている。
図では大きくDocile(神妙),Exberant(活発),Afraid(落胆),Hostile(敵対)の4つのエリアに分割されているが,これは要素の割合によってさらに細かな気分を示すものとなる。このようなゲーム内で使われている感情のパラメータを,アートスタイルへと変換して画像を加工していくわけだ。
画像の加工には,Vincent Dumoulin氏,Jonathon Shlens氏,Manjunath Kudlur氏による論文「A Learned Representation for Artistic Style」の手法をベースとしたものが使われており,ベース画像に対してスタイル画像を指定してニューラルネットワークで処理することで,指定のスタイルでアレンジされた画像を得る仕組みだ。このとき,2つのスタイルのブレンドや特定のオブジェクトをマスクして別のスタイルに加工するといった要素が付け加えられている。
元画像に対して畳み込み演算を行って出力されたFeature Mapに対して正規化を行い,これをアフィン変換してスタイルを適用していく。スタイル用の画像からアフィン変換用のパラメータが抽出できるらしいのだが,詳しいことはよく分からない。とにかく,こうやって抽出された変換パラメータは単純にブレンドするだけで,スタイル自体のブレンドも行えるらしい。
さらにマスクによって違うスタイルの画像と合成すれば最終出力が得られる。
ブレンド処理とマスク処理
こういった処理で2つのパラメータに応じて2つのスタイル画像で元画像を変調できるようになったわけだが,これが気分のパラメータを正確に反映した絵になっているかどうかは別問題である。気分をうまく反映するスタイル画像を選ぶことはなかなか難しい問題になっているという。
さて,これらの処理はUnreal Engine 4上で実装されている。絵の題材となる画像はゲーム内のカメラで撮影され,背景以外のキーオブジェクトを抽出して,その部分にマスク処理を施す。感情処理は別モジュールで処理してPとDのパラメータを取得する。そしてスタイルのブレンドを行ってアプリに出力画像を戻してやるといった流れだ。
問題となる機械学習周りの処理はCPUで行われているという。GPUを使用するほうが高速だが,TensorFlowをUE4に移植するのはなかなか大変だ。PCだけならまだいいのかもしれないが,将来的にゲーム機で使うことを想定すると,NVIDIAのCUDAが使えない(PS5もXbox Series XもAMD製GPUコアを使用しているため)。
対してCPUであれば,TensorFlow LiteのAPIが移植できるので遥かに簡単になる。GPUよりは遅くても,今回の用途で問題になることはなく,これならゲーム機やスマホなどにも展開できる可能性がある。
例では背景は1つのスタイル,キーオブジェクトは複数のスタイルのブレンドで表現している。おそらくここでは支配的な気分を背景に100%で,そのほかのスタイルを距離ごとにパラメータを分配しているものと思われる。左から,落胆,神妙,快活,敵対だろうか。このあたりをどのように表現するとよいのかなども課題なのであろう。
このようにして,ゲーム内のNPCが自分の気分を絵で表現することができるようになった。感情を持ったキャラクターへの道がまた一歩前進したと言えるだろう。
「Game Developers Conference 2022」公式サイト
- この記事のURL: