イベント
[CEDEC 2021]ゲームに使われた対話キャラクターのAI技術を歴史的に体系化。セッション「ゲーム産業における対話キャラクター人工知能技術の発展」レポート
「CEDEC 2021」公式サイト
エージェントの一般論
三宅氏によると,ゲームの面白さに対してAI(人工知能)が果たす役割は大きいという。ビジュアルやインタラクションがもたらす深みに続く存在として,AIがもたらす深みがある。
人間は意識や無意識といった精神的な構造を持っているが,AIもそれを模した構造を持っているため,人間とAIの関係は多層的なものになる。例えばキャラクターを実在として捉えたり,キャラクターの仕草が影響を与えたりするといったことだ。身体と身体がぶつかる物理的なインタラクションや,ダンジョンや草原など「同じ場所にいる」感覚など,人間とAIは複数のレイヤーで結ばれる。このようにゲームでは,人間とAIが複数のレイヤーで多様な関係を結ぶことで,リアリティが増してくるという。
対話エージェントを考えるとき,学術的にはテキストによる会話だけを扱うものが多いが,ゲームの対話エージェントは,身体を持ち身振りとともに会話を行ったり,自律的に会話を行ったりするのが必要になる。三宅氏は「単なる会話ではなく,例えば言葉のない身体だけの対話,ジェスチャーだけの対話といったように,対話の意味を深く捉える必要がある」と説明した。
ゲームAIは,ゲーム内に実装されるAIと,ゲーム開発で利用されるAIに分類できるが,基本的に“ゲームAI”と呼ばれるのはゲーム内のAIだ。
ゲームAIは,さらにゲーム全体を俯瞰してコントロールする「メタAI」,キャラクターの頭脳となる「キャラクターAI」,空間的認識を行う「スパーシャルAI」に分類できる。ゲーム外のAIとしては,「自動バランスAI」「開発支援AI」などが存在する。
また,ゲームは大きく「物語的ゲーム」と「アクションゲーム」に分類できる。前者には物語を進める「物語るAI」と,物語の中で役を演じる「演技的AI」が必要だ。
一方のアクションゲームでは,ゲーム空間で運動するAI,いわば「人工生命」と,環境や状況をリアルタイムで認識するAI「行動エージェント」が必要になる。
物語的ゲームのAIモデルは,レベルスクリプトでキャラクターAIに演技をさせるという構造が長らく採られてきた。また,アクションゲームのAIモデルは,「ここは歩ける」「ものが使える」といった空間的情報を認識するAIとキャラクターAIを併用してきたと三宅氏は言う。
最近では物語的ゲームとアクションゲームを融合させた「物語的アクションゲーム」が増え,その中でもハイエンドのゲームではメタAI,キャラクターAI,スパーシャルAIの3つが連携してゲームの中のAIを構築する。
歴史的に見れば,ゲームの3D化が始まった1994年頃からナビゲーションAIが登場し,1999年頃,主にFPSで自律型のキャラクターAIが使われるようになった。自律型キャラクターAIを統率するために,2005年頃からメタAIが登場したという。
対話エージェントの本質は,プレイヤーが会話などのアクションを行うと,それに対応したインタラクションを取ることにある。どういったインタラクションがあるかといえば,「プレイヤーの選択肢に反応する」「プレイヤーのコマンドを解釈する」「プレイヤーの行動を解釈する」「プレイヤーの発言を解釈する」という順で難度の段階があるが,いずれの場合も,得られた解釈に基づいて応答することになる。
AIと人間が自然言語で会話する場合,対話の内容で難度が異なるという。テーマを決めずに話す「雑談」は最も難しく,「テーマを決めた自由会話」「ミニゲーム」「キーワード会話・一問一答」「一方的に話す」の順で易しくなる。
対話エージェントの原点は,1966年の「ELIZA」だ。これはカウンセリング用に作られた大型コンピュータ向けのアプリケーションで,さまざまなハードに移植されたが,それを手がけたDon Daglow氏らは,1975年にテキストベースのRPG「Dungeon」を開発したという。
重要なのは,「Dungeon」のプレイヤーはゲーム自体と対話していること──すなわち,「ELIZA」の場合は「ELIZA」というエージェントと会話していたのだが,これが「Dungeon」になると,ゲーム自体がインタラクティブストーリーとして語りの主体となることだ。三宅氏は「最初に示したように,ゲームにおける対話は単にキャラクターと会話するだけでなく,ゲームそのものと対話することもある」とした。
ゲーム産業における対話エージェント
1980年代に入ると,キャラクターと対話する「EmmyII」(エミー2)や,AIで動くキャラクターの生活を観察する「リトル・コンピュータ・ピープル」,犬を育成する「パピーラブ」といったゲームが登場する。
三宅氏は「デジタルゲームは,ゲームと対話エージェントが一体となって始まった側面がある」とし,「最初はストーリーだけで人を引き込み,そこから順にグラフィックス,音楽,ムービーが付き,オンラインになっていった」と流れを語った。
例えば1970年代に登場したテキストアドベンチャーの「Zork」は,テキストベースでプレイヤーと対話するゲームで,あらかじめ用意されたスクリプトで進行するというプリミティブなシステムだったが,三宅氏はそれを,「プレイヤーとゲームの対話と見なせる」と述べた。
やがてテキストだけから,身体を持つキャラクターを使った会話になり,やがて自律型エージェントや対話エージェントが誕生した。
プレイヤーとキャラクターのインタラクションを歴史的に見ると,まずアクションゲームが物理的インタラクションをもたらし,次に対話ゲームが会話的インタラクションをもたらした。これについて三宅氏は「身体,物理,会話という3つの軸でキャラクターが深まっていく」と語った。
通常のキャラクターと対話エージェントは何が違うのかといえば,前者は物理的インタラクションの比重が高く,一方の対話エージェントは変化に富む会話インタラクションが特徴で,バトル中でもプレイヤーに呼びかけたりする。対話エージェントは,例えばRPGのパーティメンバーや敵,アドベンチャーゲームで主人公の代わりに行動するキャラクターなど,さまざまな用途が考えられる。
また上記のとおり,かつてのゲームはそれ自体が語りの主体である対話エージェントだったのだが,キャラクターの登場により,プレイヤーと直接対話するキャラクターと,ゲームの分離が発生した。三宅氏はこれを「ゲーム産業における,もっともアカデミックな特徴」であり,「キャラクターの動きなどから間接的に物語が生まれるようになった。つまりナラティブが発生した」とした。
1987年にスクウェアからリリースされた「アップルタウン物語」は,ゲームの中の女の子に贈り物をするといった形で間接的な影響を与えられるが,基本的にキャラクターの生活を観察することを主とした作品だ。ゲームを対話エージェントとして見ると,物語が直接語られるわけではなく,キャラクターの生活を見てプレイヤーが何か意味を読み取る構造となる。
1989年の「シムシティ」は都市建設ゲームで,例えばプレイヤーが工場を作れば生活が便利になる一方,公害が起きたり,マンションを建てると人口密度が上がって問題が発生したりなど,プレイヤーの行動に応じて都市が変化し,その変化を見たプレイヤーがまたアクションを起こすというサイクルを持つ。それを単なる数値や図表ではなく,変化をビジュアライズしていることが大きな特徴となる。
内部的には,プレイヤーが見ているレイヤーの下に何層かのレイヤーがあり,プレイヤーのアクションが下層のレイヤーに順に伝播し,それぞれのレイヤーの反響が遅延しながら返ってくるという仕組みを使って,街という生きたシステムを表現しているという。
「シムシティ」もまた,語りの主体である「街のシステム」とプレイヤーが,アクションを通じて相互に影響し合っている。
1990年の「ドラゴンクエストIV」はAI搭載を前面に打ち出したゲームで,「バトルのためのAI」や「学習機能」などを実現していた。対話エージェントとして見ると,プレイヤーは味方や敵のキャラクターと対話し,語りの主体である「NPCを通したバトル」は「こういう体験をしてほしい」ということを間接的に語りかけているという。
1994年の「ワンダープロジェクトJ 機械の少年ピーノ」は,AIにアイテムを与えて教育し,技術や能力を覚えさせていくというゲームだ。
初期の仕様書には,AIに自発的にとった行動に対してプレイヤーが「ほめる」「しかる」といった手段で,(その行動を)もっとやってほしい,あるいは絶対にやらないでほしいといった意思を示して覚えさせ,成長させていくという流れが作られていた。
開発が進むと,教育部分がシンプルになり,教育の結果は「条件反射値」というパラメータの変化に置き換えられた。そして最終段階では,AIの自発的行動が4種類に分類され,それに対して教育を施すことでパラメータが変化する仕様になったという。
これを対話エージェントとして見ると,AIキャラクターはほぼゲームシステムそのものであり,プレイヤーはキャラクターと対話しつつゲームシステムとも対話しているという二重構造になっていることが分かる。
続編となる1994年の「ワンダープロジェクトJ2 コルロの森のジョゼット」のAIは,初期の仕様では,プレイヤーがアイテムやイベントに誘導するのだが,何もしないでいるとAIが自発的に行動し始めるという基本の流れは同じだ。それらの行動に対してプレイヤーが評価を与えると,AIはそれを学習し,理解という形で成長していく。
AIの学習方式は前作に「推理」と「思考シナリオ」が加えられており,推理は,AIの理解した情報を組み合わせて新たな能力を見出させる方法だ。つまり,AIが「これとこれを組み合わせたら,これができるんじゃないか」と推測するわけだ。
思考シナリオとは,AIのそうした推理に対してプレイヤーが評価を下し,AIのパラメータを変化させる方法だ。
AIの得た知識(学習記憶)は,「理解情報ボックス」に収納される。ここで言う理解情報とは,AIがイベントをクリアするために知っておかなければならない行動,名前,概念などを指す。
理解情報は,思考シナリオに対する評価と,アイテムを使った自発的行動に対する評価の2つで作られていく。
三宅氏は「ワンダープロジェクトJ」シリーズについて,「キャラクターの内面モデルと学習モデルの始まり」と表現し,2000年の「The Sims」に先駆けた存在であると指摘した。
1998年の「アストロノーカ」は,「バブー」と呼ばれるキャラクターが「遺伝的アルゴリズム」によって進化していくというゲームだった。遺伝的アルゴリズムは集団を世代ごとに進化させる手法で,「アストロノーカ」では1世代につき20体を同時に成長させている。20体のバブーはそれぞれ遺伝子としてパラメータを持っており,もっとも優秀な2体が高い確率で次の世代の親になる。
ゲーム開始当初のバブーは,プレイヤーの仕掛けたトラップにすぐ引っかかるが,遺伝的アルゴリズムによって進化し,トラップを回避する優秀な遺伝子が残ることになる。
ゲームシステムとしては,プレイヤーにバブー1体のトラップバトルを見せている裏で,残りの19体にも同じトラップバトルを体験させ,集団として世代交代をさせているという。
1999年の「シーマン」は,「自然な会話を実現できていた」という理由で,対話エージェントが盛り上がってきた最近,注目を集めている。「20年前に実現したことが,なぜ今できないのか」と学会でも話題になったという。
そこで三宅氏は「シーマン」を開発した斎藤由多加氏に話を聞き,本セッションではその要約が紹介された。
それによると,「シーマン」の会話は,巨大な分岐ルールをベースに構成されており,同じ言葉でも発音によって意味が変わる「メロディ言語」が特徴になっていた。現在の会話研究の多くは音のデータを重視せず,テキストだけに注目しているが,「シーマン」では「会話は文字だけでは成り立たない。逆に言うと同じ言葉にいろいろな意味をもたせることができる」という考え方をしている。
何を言っているのか聴き取れなかった場合,「もう一度言ってください」というのはサービスロボット的な会話で,「聞こえねえよ」と反発するほうが自然だというのが,斎藤氏の考え方だという。
斎藤氏は「最近の対話エージェント開発は,正確な情報を返す検索エンジンを作っているようなもの」と述べ,知らなかったら知らないでいいし,分からなければ「マジ?」と返せば良いといったアプローチで「シーマン」の開発に臨んでいたことを明かしたそうだ。
2000年の「The Sims」はユーティリティベースのAIを採用しており,人格モデルには「モチーフエンジン」が組み込まれている。モチーフエンジンは,キャラクターの行動によって,4種類の身体的パラメータと,同じく4種類のメンタルパラメータを変化させる。例えば人と話すと,「Social」のパラメータが増加するといった感じだ。
8つのパラメータそれぞれにはウェイトグラフが仕込んであり,キャラクターの「ムード」(幸福度)を決定する。
例えば空腹度を示す「Hunger」は-80から+60になったときのほうが,+60から+90になったときより大きく変化する。つまり,すごくお腹が空いている状態から腹八分目になったときのほうが,腹八分目から満腹になったときより幸せというわけだ。
2012年の「Left 4 Dead」では,ゲーム中のNPCの会話に「パターンマッチング法」を採用した。これはNPCが視認したものに対して特定の会話をするという手法で,例えば敵を見つけたら「敵だ」,近道を見つけたら「こっちのほうが近い」と応答し,複数視認した場合は,優先度の高いものが選ばれる。これらの会話はストーリーを語るものではなく,プレイヤーにちょっとしたヒントを与える,間接的ナラティブだと考えられるという。
2014年の「The Last of Us」では,ゲーム中のNPCの会話に「コンテクストベース法」を使ったという。これは次のセリフが前のセリフの条件で決まるという手法で,状況がどうなっているかを伝え,プレイヤーにどうするべきかヒントを与える。その意味で,こちらも間接的なナラティブだ。
2016年の「FINAL FANTASY XV」は,メタAIとキャラクターAI,スパーシャルAIが連携したAIモデルを採用しており,「仲間強調」「Face-to-Face 対話システム」「移動会話」などを実現している。仲間強調は,倒れた仲間に一番近い1人が救助に行くようメタAIに操作されるというもので,このコントロールがないと,倒れた仲間にところに残りの全員が集まってしまう。
また,「Face-to-Face 対話システム」は,特定のキャラクター同士が会話する場合に適切な位置を計算し,その位置に向かうパスを検索して適切な距離と方向で話すというものだ。
「移動会話」はキャラクターが,プレイヤーの操作する主人公の進行方向を推定し,同じ方向に走りながら会話するもの。位置取りだけでなく,身体のポジショニングでも主人公をサポートしていることをプレイヤーに伝える。
三宅氏はゲーム産業における対話エージェントの歴史を「箱庭・シム系」「対話・キャラクター育成系」「ゲーム内会話系」の3系統に分類し,「さまざまな進化を遂げており,そこがアカデミックな対話エージェントと違う」とまとめた。
ゲーム産業外における対話エージェント
現在盛り上がりを見せるゲーム産業外の対話エージェントも紹介された。
●KELDIC
●TextWorld
●Malmo
●MineRL
●LIGHT
対話エージェントのこれから
三宅氏はアカデミック分野の対話エージェントが会話にこだわってきたのに対し,「ゲームの対話エージェントは独自の進化を遂げてきた」と改めて指摘する。
対話エージェントの構造で見れば,アカデミック分野はキャラクターを重視するのに対し,ゲームはキャラクターとシステムを含めた全体を作ってきたと言える。
ゲーム以外の産業で対話エージェントの研究開発が進む中,三宅氏は「敵・仲間含めてキャラクターの関係性をどう模索していくかがゲームにおける対話エージェントの方向性として重要」だとし,「3つの流れを汲む形で,次世代AIを考えていかなければならない」と述べた。見えない存在ではあるがプレイヤーにさまざまな働きかけをしているメタAIを考慮したうえで対話エージェントを研究しないと,本質を見失ってしまうという。
最後に三宅氏は,重要なポイントとして「ゲームが持つ対話の意味は,言葉だけに限定すべきではない」「見えない形の物語的語りかけを考えなければならない」「世界とのインタラクションの中で対話を創造する必要がある」「自然言語処理を実現するには段階を踏む必要がある」ことを挙げ,セッションを終えた。
「CEDEC 2021」公式サイト
4Gamer「CEDEC 2021」記事一覧
- この記事のURL: