「ARC Raiders」，巨大多脚ロボットに「歩き方」を教える方法。物理シミュレーション×機械学習による開発事例［GDC 2026］

　「GDC Festival of Gaming 2026」（GDC 2026）の会期3日目にあたる2026年3月11日，「Learning to Move: Physics-Based Enemy Locomotion in 'ARC Raiders'」と題された講演が行われた。これは，「ARC Raiders」（PC / PS5 / Xbox Series X|S）に登場する巨大な多脚ロボットの移動アニメーションを，物理シミュレーションと深層強化学習によって構築した開発事例についての講演だ。

　Embark StudiosでMachine Learning Research Leadを務めるMartin Singh-Blom氏によって説明された内容を紹介しよう。

　「ARC Raiders」は，Embark Studiosが開発するエクストラクションシューターだ。プレイヤーは荒廃した地球を舞台に，ほかのプレイヤーと協力あるいは敵対しながら，資源を集めて脱出を目指す。リプレイ性の高いセッションベースのゲームデザインが特徴で，何度繰り返しても異なる展開が起きる「創発的な体験」が志向されている。

画像ギャラリー No.001のサムネイル画像 / 「ARC Raiders」，巨大多脚ロボットに「歩き方」を教える方法。物理シミュレーション×機械学習による開発事例［GDC 2026］

　そしてこのゲームの看板ともいえるのが，ARCロボットと呼ばれる巨大な多脚ロボットの存在だろう。プレイヤーの前に立ちはだかる脅威として設計されたこの敵は，物理法則に基づいた重量感のある動きでフィールドを闊歩し，ときに猛然と追いかけてきて，ジャンプし，転び，壁にぶつかりながらも突き進んでくる。その挙動が毎回微妙に異なるからこそ，何度遊んでも緊張感が途切れないわけだ。
　では，この「物理法則に基づいた動き」はどうやって作られているのか。それが今回の講演の核である。

　ゲームにおけるキャラクターアニメーションには，大きく分けて3つの手法があるという。手付けアニメーション（カーブエディタ），モーションキャプチャ，そしてプロシージャルアニメーションだ。Singh-Blom氏は，ARC Raidersの開発においてこれらをいずれも検討し，そしていずれも採用しなかった経緯を語った。

手付けアニメーションの説明。左側にはキャラクターのアニメーション，右側にはアニメーションカーブの種類が示されている。表現力は高いが，動的な物理環境との相互作用は難しい

　手付けアニメーションは表現力こそ高いものの，あらかじめ決められた動きを再生するという性質上，物理環境とのインタラクションを自然に表現するには限界がある。モーションキャプチャについては，「身長12メートル，6本脚のロボットにキャプチャスーツを着せるわけにはいかない」という明快な理由で却下された。

プロシージャルアニメーションの例。Unityで制作されたStickmanデモで，見た目は優秀だが物理演算を乗せると複雑になりすぎる

　プロシージャルアニメーションは見栄えの面では有望だったが，その上に物理演算を本格的に乗せようとすると，プロシージャルシステム専用の物理エンジンを再構築するような状態に陥り，複雑さが爆発的に増してしまう。結果として保守性も開発効率も損なわれてしまうのだ。

　そんななか，Singh-Blom氏のチームが着目したのは，現実世界のロボティクス分野だった。四足歩行ロボットが，機械学習を用いて物理世界を歩き回っている映像は，2018年の時点ですでにインターネット上で大きな話題になっていた。加えて，ゲーム分野でも物理ベースのキャラクター制御に関する先行研究が登場し始めていた時期である。

　「現実世界でできていることが，シミュレーション上でできない道理はない」と確信したチームは，物理シミュレーションと深層強化学習の組み合わせに踏み出すことになる。

強化学習の基本構造。ポリシー（ニューラルネットワーク）がエージェント（シミュレーション上のロボット）に行動（Actions）を送り，ロボットから観察（Observations）を受け取る

　深層強化学習の基本構造はシンプルだ。シミュレーション内のロボット（エージェント）が世界を「観察」し，ニューラルネットワーク（ポリシー）がその観察に基づいて「行動」を出力する。行動の結果に対して「報酬」が与えられ，ロボットはより多くの報酬を得られるように行動パターンを最適化していく。犬にお手を教えるのと本質的には同じで，“うまくできたらご褒美をあげる”といった枠組みだ。

ニューラルネットワークの基本が犬と猫の分類で解説された

　Singh-Blom氏は，このニューラルネットワークの仕組みを犬と猫の画像分類という分かりやすい例で説明してから，強化学習の本題に入った。

強化学習におけるデータの構造。観察（o），行動（a），報酬（r），次の観察（o'）の4つで1ステップが構成される

　ロボットが世界から受け取るデータは，観察（o），行動（a），報酬（r），そして行動後の新しい観察（o'）の繰り返しで構成される。
　ただし，「目の前の報酬だけを最大化する」アプローチでは，遠くの目標に向かって移動するような長期的なタスクがうまくいかない。明日もらえる1ドルと10年後にもらえる1ドルでは，誰だって明日のほうに価値を感じるだろう。そこで，「将来の報酬も考慮に入れつつ，遠い未来のものほど少しずつ割り引いて評価する」という「割引率」（ガンマ）の概念が導入される。目先だけでもなく，遠い将来を過大評価するでもない，ちょうどいい塩梅を探るわけだ。

　さらに，現在の行動が将来どれだけの報酬をもたらすかを予測する「Critic」ネットワークと，実際に行動を決定する「Policy」ネットワークを交互に学習させることで，長期的な判断が可能になる。具体的な手法としてはPPO（Proximal Policy Optimization）やSAC（Soft Actor-Critic）などが用いられた。

シンプルなロボットモデルが起伏のある地形上でターゲットキューブに向かう。観察は関節角度・ターゲットまでの距離と方向，行動はPDコントローラへの目標角度，報酬はキューブ到達時の1ポイント

　初期テストの結果は上々だった。MuJoCoやNVIDIA Isaac Gymといったシミュレーション環境を使い，ロボットに「目標に向かって歩く」ことを学習させたところ，急旋回時にお尻を振るような物理演算ならではの自然な挙動が「タダで」得られたとSingh-Blom氏は語る。物理法則に従って重心が移動した結果として，誰もプログラムしていない動きが自然発生したわけだ。

実際のゲームアセットを使った初期の統合テスト。プレイヤーに向かって1メートル移動するごとに1ポイント，プレイヤー方向へ旋回するごとに0.5ポイントの報酬が与えられる

「歩けるけど，カッコよくない」問題

　ところが，ここからが本当の苦闘の始まりだった。
　ロボットは確かに「倒れずに目的地まで歩く」ことを学習した。しかし，その歩き方には説得力がない。巨大ロボットとしての重厚感も，生き物としてのリズム感もなく，いってしまえば不格好なのである。「歩容」（Gait＝歩き方のスタイル）の問題だ。

　なぜ不自然に見えるのか。その原因の特定が極めて難しかったという。ニューラルネットワークの層の数や学習率といった機械学習のパラメータ，ロボットの脚の長さやモーターの強さといった物理パラメータ，姿勢維持や移動方向に与える報酬のバランス，さらには訓練用の地形をどう生成するかまで――調整すべき変数が膨大な数にのぼる。

　しかも，移動速度や旋回速度のような数値指標は測定できても，「歩き方がカッコいいか」は数値化できない。結果としてアニメーションディレクターが延々と出力されたビデオを観て定性的に判断するしかなく，「ちょっとガクガクしてるんだよなぁ」というフィードバックを受け取ったエンジニアが途方に暮れる，という光景が繰り返されることになったという。

チームが構築したクラウドツール「Hive RL」のインタフェース。学習パラメータの調整やトレーニングのクラウド実行，チーム間の共有が可能だ

Embark Studiosでは，クラウドツールの構築にClaude Codeを活用したそうだ

　チームはクラウド上で並列学習を行い，結果を共有/比較できる独自のツール環境「Hive RL」を構築してイテレーション速度を劇的に改善した。ちなみにSingh-Blom氏は，このツールの構築にClaude Codeを活用していたことも講演中にさらりと明かしている。

TensorBoardを使った学習結果の可視化。PatrolBridge，Slopes，UnevenRocksなど複数の地形条件でのスコアが並列で比較されている

　TensorBoardによるメトリクスの可視化も積極的に行われていたが，それでも1体のロボットの歩行を納得のいくレベルに仕上げるのに年単位の時間を要したという。

　機械学習チームが歩行の品質と格闘しているあいだも，ゲームデザイナーからの要望は容赦なく積み上がっていった。「踏みつけ攻撃がほしい」「その場で停止させたい」「急に向きを変えてほしい」――これらはゲームとして当然必要な機能だが，実装には大きな壁があった。

　1つのニューラルネットワークに「前進する」「停止する」「踏みつける」といった複数のタスクを同時に学習させると，タスク同士が干渉し合う。たとえば「前進」と「停止」を同時に持たせたロボットは，「いつ停止命令が来るか分からない」という恐怖に怯えるかのように，及び腰でしか移動しなくなってしまったのだ。

　この問題に対するSingh-Blom氏のチームの解決策はこうだ。タスクごとに独立した「ブレイン」（脳＝個別のポリシーネットワーク）を用意し，ゲームエンジン側のビヘイビアツリー（敵AIの行動パターンを「もし○○なら△△する」というツリー状のフローチャートで管理する仕組み）で状況に応じてブレインを切り替えたのである。「前進ブレイン」は停止という概念を一切知らないので，全力で突き進む。停止が必要になった瞬間に「停止ブレイン」に切り替わり，きちんと止まるというわけだ。

　この設計がもたらした副次的な効果も大きかった。ゲームデザイナーは，使い慣れたビヘイビアツリーのインタフェース上でロボットの行動を調整できるようになり，機械学習エンジニアに「ちょっとここの確率を変えたいんだけど」と頼む必要がなくなったという。先端技術の導入にあたって，既存のワークフローとの接合点をどう設計するかという問題は，技術そのものと同じくらい重要だということだろう。

敵対的模倣学習で「カッコよさ」を手に入れる

　歩容の問題は，チームを長らく悩ませ続けた。ロボットは物理的に正しく歩くことは学べても，「カッコよく歩く」ことがどうしてもできない。報酬関数をいくら調整しても，アニメーションディレクターが求めるスタイルにはたどり着けなかったそうだ。

別プロジェクトでのスタイル問題。2本脚のキャラクターが目標に向かって移動するが，歩き方のスタイルが意図したものと合わない

　開発中の一時期にチームが別のゲームプロジェクトに移った際，「ビデオゲームなのだから，完全に物理法則に従う必要はない」という重要な教訓を得たという。ロボットが倒れそうになったとき，物理的には存在しない「魔法の力」を頭部に加えて姿勢を保たせ，その力を使うこと自体にペナルティを与えることで，見た目の自然さを保つ。このような「チート」的テクニックも，ゲーム開発ならではの知恵といえる。

　しかしスタイルの問題を根本的に解決したのは，敵対的模倣学習（Adversarial Imitation Learning）の導入だった。画像生成AIでおなじみのGAN（敵対的生成ネットワーク）と同じ発想を，アニメーション制御に応用する手法だ。

画像生成における「Generator（生成器）」の仕組み。ノイズから犬の画像を生成するネットワークだが，「良い犬の画像とは何か」をどう測るかが課題になる

犬と猫の分類器の知識を応用すれば，本物の犬の写真と生成された偽物の犬の画像を見分ける「Discriminator（識別器）」が作れる

　Singh-Blom氏はまず画像生成AIの文脈でGANの仕組みを説明した。ノイズから犬の画像を生成する「Generator」と，生成された画像が本物か偽物かを判定する「Discriminator」が互いに競い合うことで，生成画像の品質が向上していく。この構造を，そのままロボットのアニメーション制御に転用するのだ。

敵対的模倣学習の元となった2つの論文。Ho & Ermon（2016）の「Generative Adversarial Imitation Learning」と，Peng et al.（2022）の「AMP: Adversarial Motion Priors」

Discriminatorを用いてロボットの動きとアニメーターの手付けアニメーションを識別する。犬と猫の分類と同じ構造で，アニメーションの遷移データが入力，出力は「本物のアニメーション」か「エージェントの動き」かの判定

　仕組みとしては，人間のアニメーターが従来のカーブエディタを使って，理想的な歩行サイクルのリファレンスアニメーションを作成する。次に「Discriminator」（識別器）という別のネットワークを用意し，「いま見ている動きは，物理シミュレーション上のロボットの動きなのか，人間が手付けしたアニメーションなのか」を判定させる。ロボットは，このDiscriminatorを「騙せた」とき――つまりアニメーターの手付けと区別がつかない動きができたときに追加の報酬を得る。

敵対的模倣学習の導入結果。アニメーターが制御ループに復帰し，タスク報酬とDiscriminator報酬の組み合わせでスタイルが劇的に改善された。岩場を歩く多脚ロボットの動きに説得力が増したという

　この手法の導入前後の比較映像が講演中に映し出されたが，改善は劇的だった。以前はぎこちなく前のめりに進んでいたロボットが，しっかりとした足運びで地面を踏みしめるようになっていた。

　また，この手法にはアニメーターの専門性を生かせるという大きな利点もある。アニメーターは使い慣れたカーブエディタで「こう歩いてほしい」というリファレンスを作るだけでよく，機械学習の知識は一切必要ない。先端技術とクリエイターの既存スキルを橋渡しする設計といえるだろう。

　なお，どうしても歩き方がロボットの外見と合わない場合は，ネットワークを調整するのではなく，ロボットの3Dモデル側の装甲を薄くして軽く見せるという判断も行ったという。「歩き方にロボットを合わせる」という逆転の発想だが，アートとエンジニアリングの歩み寄りが品質向上に直結した好例だ。

　歩き方の問題が解決に向かうと，次に待っていたのは「地形をどう認識するか」という課題だった。ロボットが障害物を避けて歩くには，周囲の地形を「見る」必要がある。

グリッドベースのハイトマップによる知覚システム。壁の向こう側も「見えて」しまう問題があった

　当初のアプローチは，ロボットの真上からグリッド状にレイキャスト（光線を飛ばして距離を測る手法）を行い，高さマップを生成するというものだった。画像認識で実績のある畳み込みニューラルネットワーク（CNN）と相性が良く，実装も比較的容易だったためだ。

　ところが，この方式には致命的な弱点があった。トンネルである。上から光線を飛ばすと，トンネルの天井を「障害物」として検知してしまい，ロボットがトンネルに入れずに後ずさりしてしまうのだ。実際のプレイテストでストリーマーが遭遇したこの不具合は，チームにとって大きな課題となった。

　最終的に採用されたのは，ロボット自身の視点から全方位にレイを飛ばすポイントクラウド方式である。実装の難度は高いが，背景が静的であることを利用してヒット判定をワールド空間にキャッシュし，ロボットのローカル座標に変換する工夫を施すことで，毎フレームの計算負荷を抑えることに成功した。この改良により，トンネルや屋内といった複雑な地形もロボットが正しく踏破できるようになったそうだ。

講演の締めくくりに示されたエンジニアリング面の教訓

　講演の最後にSingh-Blom氏が強調したのは，技術そのものの話ではなく，チーム開発における「インタフェース設計」の重要性だった。

　機械学習やニューラルネットワークといった先端技術は，そのままではゲーム開発の現場で使いこなせない。重要なのは，アニメーターにはアニメーションカーブを，ゲームデザイナーにはビヘイビアツリーをそれぞれが使い慣れた抽象化レイヤーを通じて先端技術を制御できるようにすることだという。

　加えて，ロボットの3Dモデル設計の段階から物理的な整合性を意識すること，知覚システムへの投資を惜しまないこと，そして可能な限りメトリクスを取って反復テストできる環境を構築することが，品質向上に直結するとSingh-Blom氏は総括した。

　ARC Raidersのロボットが見せる動きは，プレイヤーから見れば「巨大ロボットが物理法則に従って暴れている」という体験にすぎない。しかしその裏側には，強化学習の基礎理論から歩容のスタイル制御，ゲームデザインとの統合，知覚システムの構築まで，数年にわたる試行錯誤の歴史が詰まっている。

　物理ベースのアニメーションが「見た目の説得力」と「ゲームプレイの創発性」を同時にもたらすことを，この講演は鮮やかに証明してみせた。ゲームにおけるAI／機械学習の活用は，まだまだこれからが本番だろう。

Embark Studios Machine Learning Research Lead Martin Singh-Blom氏

「ARC Raiders」公式サイト