イベント
[CEDEC 2022]「逆転オセロニア」の“人間に勝つ最強対戦AI”は,どのように育て上げられたのか。強さの理由やその応用について語られた講演をレポート
現代の複雑なゲームにおいて,対人戦で勝利できる強さを持ったAIを作り上げることは,AI開発に携わっている人たちの夢である。それを成し遂げたという「逆転オセロニア」の最強AIは,どのように育てられ,どのような強さを誇り,そしてどういった形で応用できるのだろうか。
DeNAのAI研究開発エンジニアである甲野 佑氏と,プロAIアーティストの大渡勝己氏が解説した。
写真左から甲野 佑氏,大渡勝己氏 |
「逆転オセロニア」とAIの歴史は長い。2018年には,実戦的なデッキの自動構築という高度なサポートを行う「オススメ編成」が実装され,2019年にはオセロニア道場に,高ランク帯のプレイヤーの戦い方を学習した強力なAIが登場している。
ほかにも,バンディットアルゴリズムと深層学習によるバランス調整支援アルゴリズムや,キャラクター画像と音声の自動生成技術などが投入されているが,それらの先進的なAI試作の大元にあるのが,2018年に始まった「最強の対戦AI」(以下,最強AI)だという。
2022年に,トップレベルの強さにまで到達したという最強AI。そもそもなぜこの挑戦を始めたかといえば,「AIを創る以上は,人間並みかそれ以上を目指したい!」という純粋な思いからだったそうだ。
もちろん,それだけでは人は動かない。最強ができれば力加減で弱くもできるため,幅広い層に向けたいろいろな利用法もアピールしていった。
初めに,講演の最初に行われた“最強AI vs 人間”の対戦ルールと評価を説明しよう。使用可能なキャラクターは,2022年3月までに登場したもの(約5500体)で,使用デッキは,AI側がプレイヤー対戦ログからAIの勝率推定が高い10種からランダムに選択,人間側はあらかじめ数種作成しておいたものを試合時に選択という形をとった。
AIと人間共に,互いのデッキは分からないし,もちろんAIに対戦相手のデッキを盗み見るような能力はない。
このようなフェアな条件で行われた対戦は,5戦4勝1敗で最強AIが勝利した。その強さは多くのプレイヤーからも認められており,「人間では恐がって打てないような大胆な手をガンガン打ってくる,恐れ知らずの強さがある」とも評価されている。
最強AIの育成に使用されたのが,「強化学習」という機械学習システムだ。従来使われている,教師ありの学習(主に人間が作ったデータを与えられ,それを模倣する学習形式)とは異なり,AI自身がゲームシミュレータで対戦し,自ら試行錯誤してその結果から学ぶというもので,近年さまざまなゲームで人間以上の成績を弾き出しているという。
本作は対戦ゲームなので,AIは“自分 vs 自分”の自己対戦を繰り返し,その“両者の立場”の結果から学び,試行錯誤をして強くなっていった。人間のデータから学ぶのではなく,自分自身で鍛えていく,天井がない強さを極められる学習形式だったからこそ,最強AIが育て上げられたのだ。
人間が対戦データなどを用意する手間がなく,新規キャラクター追加の際には,データ更新も比較的容易なことが利点の「強化学習」だが,一方で困難なところもあった。
まずは,学習に膨大な時間がかかること。多くいるキャラクターの特徴を覚える場合,人間は説明文を読むという方法があるが,いまのAIにはそれが不可能で,実際に使用して覚えなければならない。
また,盤面はボードゲーム,デッキはカードゲームに近いという本作の状態表現の複雑さもあって,空間情報である盤面と集合情報のデッキの統合も必要だった。
数千種のキャラクターと,そのキャラの組み合わせで異なる特徴を持つデッキや,盤面で繰り広げられる複雑な戦術の情報は,短時間で対応することが容易ではない。そのため,自社開発の技術や人間がデータを与えることによる学習補助などにより,それらの困難に対処していったという。
とくに時間短縮に大きく貢献したのが人間のデータで,高ランク帯のプレイヤー対戦ログだ。強化学習は,自分で学んでくれるのが利点だが,初期は“赤ちゃん同士の戦い”といったレベルで無駄が多い。そこで,学習促進期として“教師”となる対戦データを与えたのである。
これによって立ち上がりのスピードが段違いに早くなる。また人間の手に似せつつ自己対戦学習をするようになったため,“人間に勝ちやすい手”を学習しやすくなった。自己鍛錬だけではなく,強者たちの戦い方を知ること。それが,最強を目指すうえで重要だったわけだ。
では,そうして生まれた最強AIはなにに応用できるのか。まず考えられるのが,強さを極めたいプレイヤーに向けたエンドコンテンツだろう。
やり込み要素として,強くなり続ける最強AIを相手とした勝負が半永久的に楽しめる。そして,レベルの高い戦いができることで,新たな戦術が発掘されるようになり,将棋や囲碁のような奥深さが生まれるかもしれないとも考えているようだ。
また最強が作れるのであれば,それより弱いAIを作るのは難しくない。「おもてなし」や「練習相手」といったように強さを調整し,幅広いプレイヤー層のためにも活用できる。
さらに,最強AIを開発スタッフの一員のように扱い,ゲームバランス調整の支援にも役立てることもできるだろう。疲れ知らずのAIであれば,大量に対戦を行ってデータを集めることができる。
蓄積されたデータを可視化することによって,客観的な振り返りを行うことも容易になる。これらの需要が高そうな技術は,ほかのモバイルゲームに転用できる汎用的な方法で開発を進めているそうだ。
そして,ひとつの大きな目標になっているのが,将棋の「電王戦」のような最強AIと人間のトッププレイヤーの対戦である。eスポーツの一部門としても考えられ,eスポーツアスリートのように“AI開発者がアスリート”となって表舞台に立ち,子どもをはじめ多くの人がAI開発に憧れを持つような盛り上がりを生みたいという。
もちろん,そのような文化が生まれるまでには,成長と成熟が必要である。しかし,こういった形でも興味を持ってAI開発の道に進む人が増えれば,それが技術レベルの向上にもつながると考えているとのこと。
ゲームAIをとおして多くの人に夢を与え,それがゲーム業界の役に立つものとなる。そんな目標を達成するための一歩が,この最強AIなのである。
「CEDEC 2022」公式サイト
4Gamer「CEDEC 2022」関連記事一覧
キーワード
オセロ・Othelloは登録商標です / TM&(C) Othello,Co. and Megahouse
(C)DeNA Co., Ltd. All rights reserved.
オセロ・Othelloは登録商標です / TM&(C) Othello,Co. and Megahouse
(C)DeNA Co., Ltd. All rights reserved.