イベント
[CEDEC 2022]「桃鉄」と「パワサカ」に見る,強化学習AIの活用事例。ゲームデザイン分析とゲームバランス調整の実態を,実例を交えて紹介
本セッションには,コナミデジタルエンタテインメント 技術開発部主査の岩倉宏介氏と第三制作部プログラマーの池畑 望氏,技術開発部プログラマーの宗政俊一氏の3名が登壇。ゲームデザイン分析および運営型ゲームのバランス調整に強化学習AIを活用した事例の紹介が行われたので,その内容を紹介しよう。
本セッションにおける強化学習とは
まずセッションの冒頭では,AIの強化学習の解説が行われた。強化学習では,AIがゲームを繰り返しプレイし,その過程でさまざまな要素を数値化して学習していく。
例えば単純なスゴロクであればゴールに近いプレイヤーが有利だが,少し複雑なルールが加わると,ゴールから遠いプレイヤーの方が先にゴールにたどり着く可能性も生じてくる。そのような複雑な状況を,人間はゲームを繰り返しプレイしていくなかで“勘どころ”として予想するが,AIもまた状況を“価値”として認識し,学習していくことになる。
またゲームは常に選択肢があるもので,その選択には目先の利益だけでなく,ゲームをクリアしたときにどれだけいい結果を得られるかを考えなくてはならない。下のスライドでは,右の道を選ぶと目の前にある1個のリンゴが得られるが,左の道なら少し先で多くのリンゴが得られる状況を示している。つまり左の方が最終的にはより多くのリンゴが得られる可能性がある。
初見プレイではなかなか分からないこうした状況も,人間は繰り返しプレイすることで予想できるようになっていく。AIもまたゲームを繰り返すうちに,どの選択肢を選べばいい結果になるかを学習していく。
さらに適切なルートを選んだとしても,必ずしもそこに存在する“勝ち”をすべて得られるとは限らない。次のスライドのように,下を向きながら歩いてると道端に落ちているリンゴには気づくが,木の上になっているリンゴには気づかない可能性があるのだ。
AIは,そうしたさまざまな行動パターンを試しながらゲームをプレイし,どんな行動パターンが最も多く報酬を得られるかを学習していく。
このように本セッションにおける強化学習とは,AIが今の状況の価値を正しく推測できるようにし,より高い価値を得られる──例えばゲームに勝つ,あるいは強いキャラクターを育てるような行動パターンを選ぶような学習を意味している。
「桃太郎電鉄〜昭和 平成 令和も定番!〜」のプレイヤーAIに強化学習を用いた事例
具体的な事例として,まず「桃太郎電鉄〜昭和 平成 令和も定番!〜」(以下,桃鉄)のプレイヤーAIに強化学習を用いたケースが紹介された。なおこの事例は,「桃鉄」リリース後に研究として取り組んだものであるとのこと。また対象としたゲームのバージョンも,最新版ではないため現行と異なる部分があるそうだ。
さてこの事例では,ゲームのシミュレータに最初からすべての仕様を入れるのではなく,まず単純なものをつくり,そこから徐々に仕様を追加していく手法で開発が進められた。これは最初から複雑にすると,学習に失敗した場合,その原因がゲーム側なのか,強化学習側なのかを究明するのが困難になるからだ。
さらにAI側では,行動の選択肢が不定数になるのを防ぐため,あらかじめメタアクションを定義してアクション数を固定したとのこと。最初のバージョンでは,「目的地に行く」「プラス駅で持ち金を増やす」「物件を多く買える駅に止まる」の3種類に,それぞれ急行系カード使用の有無を掛け合わせて6種類,それにランダムを加えて7種類のアクションを用意し,そのほかの細かい行動はルールベースで処理している。
結果,目的地優先で学習を行ったAIは,持ち金や物件購入を優先する対戦相手にはほぼ完勝,目的地優先の対戦相手には勝率33%となった。すなわち,目的地まで最短ルートを取るのが最善,となったわけである。この結果からゲームの状態を表すステートをどう設計するか,また学習中の状況をプロットする要素は何がいいかなどの試行錯誤が行われ,検証は次のステップに進むこととなる。
次のステップでは,開発チーム協力のもとで「桃鉄」の仕様を徐々に追加し,勝率の変化を見ることにした。最初の変更は,マップを全国に広げることだ。当初はマップが広くなっても目的地優先が正解だろうと予想していたが,実際には持ち金優先──プラス駅停車優先の学習が行われたという。その挙動は,目的地に向かわず周囲のプラスをフラフラするという,あまりスゴロクらしからぬものだったそうだ。
その原因は,マップが広くなることで目的地が遠くなるため,目的地到着の援助金を得られる機会が北海道限定に比べると少なくなったことにあった。対戦相手が目的地に向かっている間,プラス駅で堅実に稼ぐことで勝ちを拾うという行動パターンが強くなり,勝率は67%となった。
そこで連続目的地連続到着ボーナスを追加したところ,プラス駅で堅実に稼ぐだけでは間に合わなくなったため一転して目的地優先となり,援助金を狙う学習が行われた。
さらに駅種も追加し,併行してアクションも一新。移動先9種類と,物件駅停車時にどれだけ物件を購入するかを3段階で設定し,その組み合わせで計27個のアクションに置き換えられた。この時点では,実装されているカードの種類やイベントの数が限られるので大きな変化は見られず,基本的には目的地優先で学習が行われ,ときおり宝くじ駅に向かうような挙動も示していたという。
学習が順調に進んでいることから,次は各種カードを追加することにした。「桃鉄」には全106種類のカードがあり,その中から使用するカードを選択するか,あるいは使用しない選択できるので,アクションは計107種類ある。ただし1プレイヤーが所持できるカードは最大8枚なので,有効なのは全107アクションうち最大9アクションだ。ほとんどのアクションは無効となる。
またカードを追加する前に,ルールベースで決定していたカードの選択処理を無効にしたため,急行系カードの有無における行動変化の検証も行われた。急行系カードがあると行動範囲が広がるので,ただ目的地に向かうだけでなく,物件駅に多く止まって物件を購入したり,宝くじ駅などへの寄り道したりしながら,資産を増やす挙動が見られたという。
一方急行系カードがない場合は,プラス駅を活用しながら目的地に向かう傾向があったそうだ。
さてカードを追加したところ,AIのプレイスタイルはまた変化した。特徴的なのは,AIが目的地に向かわず資産を形成し,対戦相手が目的地で得た援助金を「とっかえっこカード」で奪取するというプレイスタイルが出てきたことだ。さらにそれを原資にして自身の資産を増やすという,これまたスゴロクらしくない挙動が現れたのだ。
次は,「桃鉄」の重要な要素である「貧乏神」の実装だ。改めて説明しておくと,これはあるプレイヤーが目的地に到着したとき,目的地からもっとも遠いプレイヤーに貧乏神が取り憑くシステムのことだ。取り憑かれたプレイヤーは,貧乏神の悪行としてさまざまなデメリットを被ることになる。そのため,これにどう対応するかが本作の醍醐味の一つとなっている。
ここまでほぼ順調に進んできた強化学習だが,この貧乏神の実装によって問題が発生した。まず学習初期の探索中には必然的にAIプレイヤーに貧乏神が取り憑くことになってしまい,すると貧乏神の所業によって実質的に勝てない状況になる。結果的に勝ち筋が見つけられず,学習もできないわけだ。少しでも学習しないかと淡い期待もしたが,勝率は超低空飛行でまったく上がる気配がなかったとか。
これまで問題が発生した場合は,報酬やアクション定義ステートを見直すことで修正してきたが,それではこの貧乏神への対処は足りなかった。そこでカリキュラム学習と自己対戦学習を行ったとのこと。
カリキュラム学習では,ルールベースの対戦相手に一定の割合でランダム行動を行わせることで強さを調整し,弱い相手に対する勝ち方や,より強い相手に対するよりよい勝ち方を学習させた。これにより,貧乏神ありでも無事学習できるようになったという。
貧乏神の実装とその環境下での学習結果からは,貧乏神の効果が改めて確認されたともいえる。貧乏神実装以前に勝率9割をキープできていたAIは,勝率が7割程度まで落ち込むこととなった。つまり対戦相手はとくにプレイを変えることなく,目的地に向かってさえいれば3割は勝てることになる。「実力7割,運3割」と言われる本作のバランスが再確認できたわけだ。
また貧乏神実装前は,戦略次第で1人負けするケースもあったというが,実装後はそういったケースが抑えられ,プレイヤー間のバランスが取れるようになったとのこと。
以上の結果から,「桃鉄」に入っているさまざまな仕様が,ゲームプレイにさまざまな影響を与えていることが分かった。そして,それらの組み合わせによって「強いプレイスタイル」が生まれてくる。
実際のゲーム開発では,初期に「こういうゲームを作っていくんだ」と意思統一が図られていても,プランナーがさまざまな仕様を入れていくうち,チームメンバー各自の抱くゲームのイメージが変わっていくことがあるという。 そういった場合にバイアスのかかっていない視点で「今,こんなゲームになっている」と教えてくれるのが,本セッションで取り上げた強化学習AIとのことだ。
また,ある仕様がどの程度ゲームに影響を及ぼしているかを測るにも,強化学習AIなら定量的な比較が可能になる。とくに「桃鉄」のように100種類以上のカードがあり,かつ多様な仕様が入っているゲームでは,そのすべてを把握して開発を進めることは困難である。そんなときに強化学習AIはすべてを平等な視点で比較し,「この状況ではこのカードが強い」といった判断や,カードの使用頻度など興味深いレポートを出してくれる。
以上のように,強化学習AIはチームの求心力を保つためのツールになり得るという見解が示され,セッションの前半は締めくくられた。
「桃太郎電鉄 〜昭和 平成 令和も定番!〜」公式サイト
「実況パワフルサッカー」のバランス調整に強化学習AIを活用した事例
セッションの後半では,スマートフォンゲーム「実況パワフルサッカー」(iOS / Android,以下,パワサカ)の開発に,強化学習AIを活用した事例が紹介された。「パワサカ」ではAIのバランス調整活用の研究開発に1年をかけ,さらに2年以上にわたり実際に運用しているとのこと。
こちらもあらためての紹介となるが,「パワサカ」は「パワプロ」シリーズのサクセスモードを使ったモバイルサッカーゲームである。サクセスモードにおけるプレイヤーの目的は,強い選手を育成することにある。強さの基準は選手の能力を数値化した「選手能力」で,育成完了時には選手能力のランク付けが行われ,より高いランクを獲得することはプレイヤーのモチベーションの一つとなっている。
なおサクセスモードは,開始時にまず育成シナリオを選択することになっている。シナリオが異なると,物語が変わるだけではなく,育成システムが大きく変化するからだ。ゆえに目的である強い選手を育成するためには,シナリオごとの固有システムを理解して攻略することが非常に重要になる。
従ってサクセスモードのバランス調整は,シナリオのコンテンツが想定どおり育成結果に影響しているかを見極めていく作業になる。具体的には,専任のテスターがテストプレイを行い,その結果とプランナーの想定を比較。問題が見つかったら調整するという流れだ。
よってテストプレイの検証精度が極めて重要になるのだが……経験豊富なテスターであっても,実はこれが非常に難しい。理由はいくつかあり,まず1つのパターンを検証するのに時間がかかることが挙げられる。サクセスモードは1回の育成に15分以上がかかるうえ,かつランダム要素が多いので,そのブレ度合いを考慮しなくてはならない。つまり同じパターンを何回もチェックする必要があるのだ。
もう一つは検証に高いプレイスキルと,客観的な視点が必要になることだ。必然的に人員は限られてしまい,加えて熟達者であっても先入観で誤った判断をしてしまう可能性は否めない。
とはいえバランス調整に失敗すると,リリース後に問題になりかねない。そこで強化学習AIを使い,テストプレイによる検証をサポートする試みが行われた。強化学習AIに白羽の矢が立ったのは,ひとえにサクセスモードとの相性の良さゆえだという。とくにターンが有限なこと,状態やアクションが離散的/限定的であること,目標が分かりやすいことなどが,その理由だそうだ。また強化学習AIならば,最適な攻略を自力で発見できるのではないか,という期待もあったとのこと。
強化学習AIの学習方法には,当初カリキュラム学習や継続学習などを試し,それなりに結果も出ていたというが,最終的には毎日ゼロから学習するシンプルなスタイルに落ち着いたそうだ。理由は,ほかの方法だと事前準備が必要だからとのことで,例えば昔のシナリオを急に再チェックしたいとか,仕様が大きく変化したケースであっても,学習方法がシンプルなら即座に対応できる。そう言った点から最適と判断されたとのこと。
以上のような過程を経て作成された強化学習AIは,シナリオによっては十分な性能を発揮できたという。とはいえすべてのシナリオでトッププレイヤーと同等というわけではなく,苦手なシナリオもあったそうだ。
こうして強化学習AIがそこそこ使えるという話になると,開発チームにも興味を示す職種が出てきたという。例えばバランスチェックだけでなく,パラメータ調整やバグチェックに使えないかという考えだ。
しかし,異なる目的のすべてに対応させようとすると使い勝手が悪くなり,結局誰も使わなくなる恐れがある。そこで関係者を集め,誰がどのように強化学習AIを使うのかの確認を徹底したそうだ。
一方で,強化学習AIの出す結果に疑問を抱くケースも散見された。これは強化学習AIに初めて触れる人が多かったからで,実際にAIが極めて高ランクの選手を育成できることを示すと,信用を勝ち得るのは難しくなかったという。このようなケースもあるので,指標には簡単で分かりやすい,インパクトのあるものを設定するのが重要とのことだった。
セッションでは,「パワサカ」の開発で用いられている強化学習AIの,実際の運用フローの紹介も行われた。現在,強化学習AIは新規シナリオなどのコンテンツをリリースする前の,QAチェックで活用されているという。これにはQAテスターによる検証に,強化学習AIによる検証を追加することで,テストプレイの検証精度を向上させる狙いがあるそうだ。
「パワサカ」の強化学習AIは,長い開発・運用期間を経たことで,現在では人間と遜色のないレベルのプレイが行えるようになっている。となれば,人間によるチェックは不要と思うかもしれないが,実はまったくそんなことはない。強化学習AIには,三つの大きな弱点あるからだ。
一つは強化学習AIが出した結果の信頼性に不安があることだ。例えばシミュレータに不具合があると,その時点で結果は実際と異なってしまう。また強化学習AIが選択した攻略が,必ずしも最善手でない可能性もある。いずれにしても,強化学習AIが出す結果を盲目的に信じるにはリスクがあるのだ。
二つめの弱点は,強化学習AIの出力する結果の解釈に問題があること。強化学習AIはランクの高い選手を育成することはできても,何がその結果につながったのかまでは説明できない。AIが何らかの特徴的な結果を出力したとしても理由が分からないため,その結果を信頼してよいのか判断できないのだ。これは一つめの信頼性の問題にもつながる課題である。
そして三つめは,強化学習のプレイ精度が安定しないことだ。強化学習AIは,基本的に高い精度でプレイが可能なもののシナリオによっては相性が悪く,学習がうまくいかないことがある。これはシナリオの固有システムがユニークすぎる場合に起こりがちで,そのような状況下では検証には使えなくなってしまう。
なお,こうした強化学習AIの弱点は,QAチーム側からAIを補助することで,解決できることも少なくない。例えば先の信頼性や解釈の問題はAIチームだけではなく,ゲームの仕様に精通したQAチームの視点で挙動をチェックすることで,その意味が判明するケースが多いという。
一方で,未解決の問題もいくつか存在している。一つはシミュレータ開発に時間を取られるため,ゲーム開発の遅れがQAにも大きく響いてしまうことだ。さらにAIフローの属人性が高いことで,人員の入れ替わりが難しくなるリスクもあるという。いずれも難しい問題ではあるものの,今後のAI活用の発展を見据え,解決策を模索しているとのことだった。
以上のように,「パワサカ」における教科学習AIと人の手によるQAチェックは,相補的な関係にあるといえる。QAテスターのチェックが最重要指標であることは従来と変わらないが,人力の弱点である試行回数の少なさや,統計的な指標をAIで補うことで,より精度の高いQAを可能にするのである。
また強化学習AIを活用したバランス調整についても,とくに重要な四つのポイントが示された。
まず一つは,「妥協すべき点は妥協すること」だ。プロジェクトの初期は,何が解決可能な問題か判別できなかったため,とにかくすべてに対して「まずはやってみよう」と技術的に立ち向かおうとしたが,とくに強化学習の性能は試行錯誤を重ねても結局伸び切らず,結果としてバランス調整フローが止まってしまうケースがあったという。この反省から,性能が出ないシナリオは諦める選択したことで,フローを改善できたという。
なおこれはQAチェックに活用する場合も同様で,性能が発揮できないケースでは無理に改善しようとせず,QAチームに任せたほうがよいとのこと。
二つ目は「強化学習AIの役割を具体化し,認識のズレをなくする」ことだ。プロジェクト初期には開発チームが求めることと,AIチームが達成しようとする目標にズレがあり,運用の段階でうまく付かないことがあったという。これは先にも紹介したとおり,強化学習AIの性質と役割をあらためて整理し,共通認識を作ることで解決できるという。
三つめは「最初からある程度勝算がある題材を選ぶ」ということだ。強化学習やシミュレータ開発は題材との相性が非常に大きいため,相性が悪いものに無理に適用しようとするとコストが跳ね上がってしまう。サクセスモードはこの相性のよさがあってこそ,現在のフローが成立しているそうだ。
そして四つめは「実運用を見据えるなら,開発チームを絡めた体制を最初から構築する」こと。最終的に強化学習AIを活用するのも,その価値を評価するのも開発チームなのだから,コストをかけてフローを構築したのに結局使われない事態は絶対に避けねばならない。
また,導入にあたっては開発チームにも一定のコストが発生することは避けられないため,開発チームにも当事者意識を持ってもらうことが重要とのことだった。「パワサカ」では 当初AIチーム主導で進めてしまったことで,開発チームの理解を得ることに苦しんだ経緯があり,ここはとくに反省しているとのことだった。
そして来場者に向け,強化学習AIをチームの一員として受け入れて,一緒にゲーム開発をしていくイメージを抱いてほしいとのメッセージが投げかけられ,セッションは幕となった。
「実況パワフルサッカー」公式サイト
「CEDEC 2022」公式サイト
4Gamer「CEDEC 2022」関連記事一覧
- 関連タイトル:
桃太郎電鉄 〜昭和 平成 令和も定番!〜
- 関連タイトル:
実況パワフルサッカー
- 関連タイトル:
実況パワフルサッカー
- この記事のURL:
キーワード
(C)さくまあきら(C)Konami Digital Entertainment
(C)Konami Digital Entertainment
(C)Konami Digital Entertainment
- 桃太郎電鉄 〜昭和 平成 令和も定番!〜【早期購入特典】ファミコン版「スーパー桃太郎電鉄」ダウンロードコード同梱
- ビデオゲーム
- 発売日:2020/11/19
- 価格:¥5,980円(Amazon) / 5691円(Yahoo)