イベント
[CEDEC 2022]「グランツーリスモ」のトップ選手に勝利したAI“Gran Turismo Sophy”は,どのように学習し何を目指すのか
リアルドライビングシミュレータ「グランツーリスモSPORT」で,トッププレイヤーに勝利したAIレーサー「Gran Turismo Sophy」(以下,GT Sophy)が紹介され,その技術課題や解決手法,今後の展望が語られた講演の内容をレポートする。
「CEDEC 2022」公式サイト
4Gamer「CEDEC 2022」関連記事一覧
本講演の主役となるGT Sophyは,深層強化学習を使用したレーシングAIエージェントだ。グランツーリスモのトッププレイヤーと競い合うことで,新たなゲーム体験を創り出すために開発されたものとなる。ゲームを攻略するAI自体はこれまでにも存在したが,グランツーリスモのレースのような,非線形で複雑な制御問題をリアルタイムで解決できるようなものではなく,従来のものとは一線を画したAIなのだという。
GT Sophyは,ソニーAIとポリフォニー・デジタル,ソニー・インタラクティブエンタテインメントの3社共同のプロジェクトとして2022年2月に発表されたもの。
ポリフォニー・デジタルがグランツーリスモと運転操作のためのAPIの提供を行うと共に,レースに関する専門知識やプレイヤーコミュニティとのコミュニケーションを担当し,ソニーAIがグランツーリスモを使った深層強化学習プラットフォームを開発,そのうえで新規のアルゴリズムや学習シナリオの開発を含む深層強化学習技術全般を担当している。また,ソニー・インタラクティブエンタテインメントの持つPlayStation Nowのインフラが,GT Sophyの大規模なトレーニング環境として使用されている。
グランツーリスモのトップドライバーとGT Sophyの対戦イベントは,2021年に2回行われた。このイベントは,GT Sophyが新たなゲーム体験を生み出す最初の目標として,レースにおいてトップドライバーを超えられることを証明するために実施されたもの。人間4名対AI4名のチーム戦を行い,3つのレースの合計ポイントで勝敗を競った。
この結果,1回目のイベントでは,GT Sophyが3つのレースすべての予選でベストラップタイムを獲得し,そのうち2つのレースで1位となったが,総合得点では敗北している。
この要因として高野氏は,スポーツパーソンシップを持ちつつ速く走行することの難しさを挙げた。トップドライバーの間では,自身が走ることはもちろん,フェアな勝負をするためのレーシングエチケットも重視される。他人にぶつからないのはもちろん,走行ラインを過度に妨害しないなどの高度な判断が求められ,それを満たしつつ勝負に勝つことは,この時点でのGT Sophyでは難しかった。
しかし,2回目のイベントではそれを克服し,3つのレースすべてで1位と2位を獲得。合計得点でもトップドライバーチームを圧倒することになった。
対戦相手のドライバーからは,「AIと対戦していることを忘れて楽しめた」「GT Sophyの走りからインスピレーションを受けた」といった声が挙がったという。これは,GT Sophyの走りが利己的なものではなく,トップドライバーさながらのものであったことの現れであり,トップドライバーのさらなる成長につなげられる可能性を示す結果だと,高野氏は述べる。
イベントでは「グランツーリスモSPORT」が使われたが,3月には最新作「グランツーリスモ7」が発売され,現在はこちらがGT Sophy開発の中心となっている。
グランツーリスモシリーズは,コースやクルマの見た目がリアルなだけでなく,シミュレータとしての精度の高さにも定評がある。クルマのエンジン特性やタイヤと路面の摩擦,サスペンションによる姿勢変化,空気抵抗の影響など,細かな部分まで実写さながらに再現されているのだ。さらにグランツーリスモ7では,動的な時間天候変化が導入され,カスタマイズやチューニングの幅も広がっている。つまり,AIが考慮する必要のある環境が,より複雑になったということでもある。
世界大会「グランツーリスモ ワールドシリーズ 2022」では,グランツーリスモ7が採用され,ワールドシリーズの中間点にあたる7月のライブイベントでは,トップドライバー同士の対戦が行われたのだが,このとき,GT Sophyと対戦するエキシビションレースも実施された。ダートとサーキットの2つのコースで対戦したところ,ダートのような難しいコースでは,とくにGT Sophyの制御のうまさが際立ち,トップドライバーを凌駕する域に達したという。
先のイベントでは,トップドライバーに勝利するというのが目標だったが,これを達成した今は,楽しく対戦できるような可能性を模索する方向に変化しているそうだ。
さて,そんなGT Sophyと,グランツーリスモの従来のAIとの違いはなんだろうか。
従来のAIは,設計者の意図する複数のシチュエーションに対して,応答のルールを書き連ねたものであり,設計者の想定していない動きは基本的にはできない。そのため,速さ(強さ)には限界があり,ゲーム中でそれ以上の性能が必要になると,物理パラメータの一部を改ざんしてブーストをかけるなど,どこかで嘘をつく必要がある。
一方,GT Sophyは深層強化学習を使用して,実際に経験することで際限なく成長していく。PlayStation Nowの環境を利用した超並列のトレーニングにより,人の想像を超えた境地にたどり着く可能性があるという。その結果は,これまでの対戦での勝利が示している通りだ。
では,グランツーリスモに高度なAIを搭載する意味とは何なのか。
従来AIは,実力的には上級者より少し弱いぐらいなので,それ以上の相手をするにはブーストが必要となる。しかし,この挙動はプレイヤーにとって参考にはならないし,そうした嘘や非人間性はやる気を阻害してしまう。
こうした問題を解決するためには,まずはAIが人間のトップを超える実力を持たなければならない。また,これが実現できれば,真っ当な勝負が楽しめるだけでなく,常にプレイヤーの一歩先を行くAIを参考に走るトレーニングモードや,今より知的な操作アシスト,ゲーム内で常に実力が拮抗したライバルなどに応用できるかもしれない。高度なAIによって,ゲーム体験が向上する可能性があるのだ。
最終的には,PlayStation上でGT Sophyをゲーム内のAIとして動かすことになるが,そのための作業は現在進行中だという。動作にあたり,ソニー製の機械学習環境であるNeural Network Libraries(NNabla)を利用しているが,GT Sophyはそこまで大きなネットワークでないにも関わらず,数10MBのメモリが必要となっているそうだ。そのため,リリース済みのタイトルでは捻出が難しく,PlayStation 5のみでの対応になってしまうかもしれないと話していた。
グランツーリスモ7への導入にあたっては,従来のAIがそのままGT Sophyに入れ替わるような対応は行わないが,GT Sophyのすごさを素直に体験できるようなコンテンツの追加を予定しているとのことだ。
講演の後半は,河本氏がGT Sophyに用いられた機械学習技術について紹介した。
まずは,グランツーリスモのAI開発は,何がそんなに難しいのかということについて。端的に言えば,強い非線形ダイナミクスを持ち,それをリアルタイムに制御し続けなければならないことが挙げられた。路面や地形,タイヤの状態など,さまざまな要素が複雑に絡み合うシミュレーションが必要になるレースゲームである以上,これらの計算時間,応答時間にも制約がある。また,早回しで学習することもできないので,データ効率のいい学習アルゴリズムも必要だ。
よくある「人間には簡単にできるがAIには難しい」といったものが原因ではなく,人間にとっても難しい,一部の才能ある人が日々努力を重ねて到達するレベルが課題になっていると言える。
「リアルなクルマのシミュレータなんだから,自動運転と同じような技術じゃないの?」と思う人もいるかもしれない。しかし,グランツーリスモの場合は,安全運転するだけでなく,速度の制御限界ギリギリ,相手との間合いギリギリを追求する必要がある。お互いが一歩間違えればすぐに事故になってしまうような,絶えず変化するレースの状況で,瞬時の判断を積み重ねなければならないのだ。
レースに勝つために必要な技術としては,3つに分けられる。まずは「制御」で,クルマとコースの特性を知り尽くし,なにが最適な運転か,どこまでなら攻めても大丈夫かを理解し,実行しなければならない。この技術がなければ,そもそもクルマを速く走らせられない。
次に「レーシングスキル」。レースは,互いに競い合う相手がいるものなので,1人でだれにも邪魔されずに走るのとはワケが違う。そうした中で,スリップストリームを利用して相手を追い抜くなど,状況に応じてドライビングテクニックを使いこなさなければならない。
3つめは「レースマナー」だ。勝つために全力を尽くしながらも,相手の走行ラインを尊重するなど,フェアな精神を身に着けてようやく一人前のレーサーと認められる。これがなければ,トッププレイヤーと対等に戦えることにはならない。
こうした課題を解く技術として,GT Sophyで用いているのが「深層強化学習」と呼ばれる技術だ。
学習のアーキテクチャとしては,さまざまなパターンが考えられる。例えば,最適制御的な考えで,周囲の状況を認識して最適な軌道を計画する「軌道計画器」,その目標軌道に対して追従制御する「追従制御器」を分け,この制御器に対して学習させたり,あるいは最適軌道を生成するプランナー部分を学習させたりといったパターンだ。
河本氏によれば,すべてのパターンを試してみたところ,結局すべてを同時に学習する「End-to-end learning」のアーキテクチャが,ベストであるという結論に達したという。
これはつまり,白紙からの強化学習となる。人間からの余計な知識は何も入れず,ハンドルを切ると何が起こるのか,アクセルを踏むとどうなるのかまったく分かっていない状態からの学習となり,最初はめちゃくちゃな運転をしながら学んでいく。
こうした学習を経て,GT Sophyはどうなっていったのか。単独走行のタイムトライアルでは,4時間の学習だと初心者以下でしかないが,8時間も経つとそこそこ走れるようになる。しかし,この時点では従来のAIのほうが安定していて高性能だ。
24時間が経つ頃には,かなりの上級者クラスに到達するが,ここから世界トップクラスの走りができるようになるには長く,1週間ほど学習を続け,少しずつ改善を積み重ねていく必要があったという。
しかし,これだけではあくまで単独走行なので,レーススキルも学習しなければならない。GT Sophyは,ゲーム内のすべての状況に対処する必要があるため,起こりうるさまざまなシーンをトレーニングシナリオとして抽出し,学習している。
起こりうるシーンというのは,例えば1vs0(ほかの車を引き離して1人で走っている状態),1vs1(近くの1台と激しくバトルしている状態),1vs2や1vs3(ほかのレーサーが割り込んでくるような状態),1vs7(スタート時の集団の状態)などだ。それぞれのシーンでの試行錯誤の結果を,常にサンプリングしてバランスよく学習し続けることで,安定した学習結果を得られたという。
モータースポーツは,どんな手を使ってでも勝てばいいというものではない。ブレーキを禁じるというルールはなくても,相手が真後ろにいる状況でうかつにブレーキを踏んではいけないし,意図的にアクセルを緩めるアンフェアな行為をすれば,ペナルティを受けることもある。そうした曖昧な常識やマナーを,GT Sophyは学ばなければならない。
基本的には,ほかのプレイヤーとのインタラクションの中から少しずつ身に着けていく必要がある。しかし,このとき対戦相手の質が問題になってくる。例えば,ゲーム中のAIを相手にしていると,強気に出れば相手が道を譲ってくれるので,そのように学習し,マナーが悪くなる。結果,本当のレースではやたら衝突するようになってしまう。逆に,マナーのよくない人ばかりを相手にすると,接触を避けるために道を譲るようになり,事故は起きないが勝てなくなる。正しい学習結果を得るために,対戦相手は慎重に選ばなければならないのだ。
学習により,数百,数千もの学習結果が得られるが,その中からどれがベストな評価なのかを選ぶのは,大きな課題となる。
河本氏らは,まずは学習結果の中からよさそうなエージェントをいくつか抽出して,それらを「n-athlon」と呼ばれる決まった評価軸でふるい分けていった。最速のラップタイムはどうか,スリップストリームのような特定のスキルを身に着けているか,コーナリングはどのぐらいうまいのか,事故が起きやすい状況で切り抜けられるのかといった,さまざまな評価軸を1つずつ調べ,総合得点の優れたエージェントを選んでいく。
上位の5つを選んだとしたら,実際のレース形式でそれぞれ対戦させて,どちらが勝つのか,レース中におかしなことが起きないのかといったものを評価し,どのエージェントがもっとも優れているかを評価する。さらに,その上位のものを人間のプレイヤーと対戦させ,優れたものを選び,その結果を学習のパラメータやアルゴリズムに反映させる。このように,学習結果の反映には,自動化できる部分とできない部分があり,QAに通じる難しさがあるという。
「Alpha Go」など,ゲームAIが人間のトッププレイヤーに勝利したというニュースはこれまでにもあったが,GT Sophyはそれらと何が違うのか。それを整理したのが,以下の図だ。
これまでのゲームAIは,抽象的な離散空間で,主にプランニングの問題を扱っていた。例えば,囲碁や将棋のAIがターゲットにしているのは,自分のアクションに対しての相手のリアクションといった,先読みの技術がいかに優れているかになる。
それに対してGT Sophyは,連続空間での制御問題を扱っている。計画したことを,実際に実行できるのか。そのためのスキルがあるのかが問題になる。囲碁なら,そこに石を置くと決めたら,置き間違えるということはありえないが,レースでは「次のコーナーでこう抜けばいい」と計画を立てても,相手が邪魔しにくるかもしれないのだ。
もう1つ,囲碁や将棋ではルールは明確に定義されているが,レースではやっていいことと悪いことが明文化できずに,曖昧になっているのも大きな違いと言える。
そんな違いを持つGT Sophyと実際に対戦した選手からは,「これまでのAIと違って,人間と対戦しているみたいだ」というコメントがあったそうだ。GT Sophyは,「人間らしくする」ということを目標に作られたわけではないが,フェアプレイの学習の結果,ちょうど人間のような印象を与えているようである。また,意表を突くような運転をしても,あとでよく見ると合理的で参考になる,練習相手として有用といった声も挙がった。
ただし,ネガティブな意見もあり,運転が常に正確すぎて人には真似できない,レース全体を見渡した長期的な戦略が感じられない,といった点は今後の課題だ。
相手のレベルに合わせた走行をするには,単に速さを調整して,追いつかれればいいというものではない。相手が参考にできるよう,スキルレベルを合わせる必要がある。
また,現状のGT Sophyが長けているのは,レースの組み立てを考えて戦略を練ることではなく,反射神経レベルでのスキルだ。ここが改善されるとレースが面白くなるので,ぜひ取り組んでいきたいと河本氏は話す。
加えて,レースマナーへの深い理解も課題だという。一見,マナーを守って走行しているが,よくよく見ると応用力が足りていないように感じているとのこと。プレイヤーにとってAIがゲームの一部であるように,AI側もプレイヤーをゲームの一部として見ている。そうではなく,ゲームをプレイしている対等な相手という概念を,学習のアーキテクチャに組み込んでいくことが重要になるという。
最後に河本氏は,自分たちが目指しているものとして「人をワクワクさせるAI」を挙げた。問題を効率よく解いたり,最適化したりするためのAIではなく,エンターテインメントカンパニーとして,人のモチベーションを上げるようなAIにしたいそうだ。
河本氏は,AIの進化によってゲームはもっと楽しくなると考えているという。プレイヤーの些細な行動変化に対してもきめ細かく応答するようになれば,毎回異なるゲーム体験ができるようになるだろう。そうしたAIが実現すれば,ゲームのデザインそのものも変わっていくのかもしれない。
「CEDEC 2022」公式サイト
4Gamer「CEDEC 2022」関連記事一覧
キーワード
Gran Turismo(R)7 (C)Sony Interactive Entertainment Inc. Developed by Polyphony Digital Inc. “Polyphony Digital logo”, “Gran Turismo” and “GT” are registered trademarks of Sony Interactive Entertainment Inc. Manufacturers, cars, names, brands and associated imagery featured in this game in some cases include trademarks and/or copyrighted materials of their respective owners. Any depiction or recreation of realworld locations, entities, businesses, or organizations is not intended to be or imply any sponsorship or endorsement of this game by such party or parties. All rights reserved.
Gran Turismo(R)7 (C)Sony Interactive Entertainment Inc. Developed by Polyphony Digital Inc. “Polyphony Digital logo”, “Gran Turismo” and “GT” are registered trademarks of Sony Interactive Entertainment Inc. Manufacturers, cars, names, brands and associated imagery featured in this game in some cases include trademarks and/or copyrighted materials of their respective owners. Any depiction or recreation of realworld locations, entities, businesses, or organizations is not intended to be or imply any sponsorship or endorsement of this game by such party or parties. All rights reserved.
- 【PS5】グランツーリスモ7【早期購入同梱物】10,000,000Cr(ゲーム内クレジット)・カーパック(3車種)(封入)※プロダクトコード有効期限:2022/8/4
- ビデオゲーム
- 発売日:2022/03/04
- 価格:¥7,280円(Amazon) / 7380円(Yahoo)