イベント
[CEDEC 2023]AIの現状とゲームに与える影響とは。街にいるAIキャラクターが,勝手にパーティーを始めるゲームが生まれる!?
急激に進化するAIの現状や,それが今後のゲームにどのような影響を与えるのかが語られた講演の模様をレポートしよう。
AIのトレンド
岡野原氏は,まずAIの現状を説明した。
多くの人がご存じの通り,AIの利用者は急増している。AIチャットボットのChatGPTは毎月16億人が利用し,画像生成AIのMidjourneyはこれまで3億枚ものタスクが実行されたという。
岡野原氏は,プログラムではなく言語を介しての指示が可能になったことで,専門家でなくても使えるようになり,さまざまなアイデアが試されてイノベーションも起きやすくなっていると語った。
誰でも使えるようになった要因としては,AIがWebや書籍,プログラムといった大量のデータを,「自己教師あり学習」も駆使して獲得していること,テキストに加えて写真や図での入力(指示)出力(回答)にも対応し,その場で学習する能力(In-Context Lerning)も備えるといった,柔軟な対応が可能になっていることなどを挙げた。また,記憶の保存や想起の仕組みが大きく改善されたことも大きいという。
そして岡野原氏は,今年の後半から来年にかけて,AIは異なる種類のデータであっても自由につなげて扱い,さまざまなタスクに対応する「マルチモーダル基盤モデル」の時代に入ると語った。
例えば,テキストと画像といった異なる種類のデータを一緒に扱うという「数年前なら素人の考え」も,現在,技術的には可能になっている。
異なるデータの“共通言語”となるのが「トークン」と呼ばれるものだ。それぞれのデータから変換されたトークンの列を予測することで,例えばキリンが映った画像と「この写真は何ですか」というテキストから,「これはキリンです」という回答が出力される。
大規模言語モデル
続いて岡野原氏は,昨今のAIの進化に大きな影響を与えた「大規模言語モデル」の解説に移った。
言語モデルは,単語列を出現確率によって予測するもの。「私は毎朝走ります」という単語列は出現確率が高いので「もっともらしい」,「は毎朝ます私走り」なら確率は低いのでありえないと判断される,という感じだ。
単なる確率の予測が,言語としての理解レベルにまで到達する大きな要因が,「自己教師あり学習」だ。これは大量のデータを使い,AIに「予測」「欠損補間」「対比」といった自己学習をさせるもの。
AIの開発には「教師あり学習」も使われているが,こちらは学習に使うデータに人間が学習目標に応じたラベルを付ける必要があるため,データ量には限りが出てきてしまう。「自己教師あり学習」だとそれが不要なので,データ量(学習量)は飛躍的に増加する。
岡野原氏によると,「自己教師あり学習」において重要なのは,予測や欠損補間といったタスクの達成ではなく,それを行う過程でAIがさまざまな能力を身につけられることだという。その詳細が欠損補間のタスクを例に紹介された。
欠損補間では,文章の中で伏せられた部分に入る単語を予測するのだが,それには伏せられていない部分から,背後の情報を正しく理解する必要がある。
「こうしたことから、私は父と一緒に●●●へ行き相談した」という文章の場合,伏せ字部分を予測するには,私と父がどういう人か,「こうしたこと」とは何なのかといったことを知る必要がある。その能力こそが,AIにとって重要になるというわけだ。
それを実現するのが,入力に応じてどの情報を取ってくるかを決める「注意機構」と呼ばれる仕組み。下の画像ではテキストが例に挙げられているが,画像や音声認識のAIでも,注意機構が利用されているという。
そして,この注意機構の仕組みを利用した「Transformer」が,大規模言語モデルのベースであり,画像生成などのほかのAIでも「第一選択肢」になっているという。
Transformerは「自己注意機構」と「MLPブロック」と呼ばれるもので構成される。
自己注意機構は,途中処理結果を対象にした注意機構で,処理における前のステップから必要な情報を取ってくる,いわば短期記憶にあたる。
それに対してMLPブロックは,過去に学習したデータから,現在の処理に関係しそうな情報を持ってくる長期記憶にあたるという。
Transformerは短期記憶と長期記憶の2つによって,自然な言語処理を可能にしているわけだ。
なお岡野原氏はMLPブロックについて「このように説明することはあまりない」と話していたので,かなり一般向けの表現と理解しておいたほうがいいだろう。
Transformerの登場によって大規模言語モデルの性能は一気に向上したのだが,それを受けて開発の規模を拡大していくと,意外なことが分かってきた。
それは,Transformerを使ったモデルでは,「学習時投入計算量」「学習データ量」「モデルサイズ」と「検証データのクロスエントロピー損失」との間に“べき乗則”が成り立つということだ。
言葉を変えると,より大きなモデルにして,より多くの計算をさせれば,出力の精度もそれに従って上がるという感じなのだが,これはTransformer出現以前の常識とはかけ離れていたという。
また,これは開発にかけるコストから達成できる性能が,かなり正確に予測できるということでもあるため,大企業がこぞってAIに投資するようになった。それがさらにAIの進化を加速させているわけだ。
そうやって大規模化が進む中で,さらに意外なことが発生した。質問に対する応答や論理的思考,ツールの使用といった,それまでできなかったことが,ある規模から突然できるようになったそうだ。これを「創発」と呼ぶのだが,この発見が大規模化をさらに後押ししているという。
続いて岡野原氏は,そんな現在の大規模言語モデルができることを4つ紹介した。
1つめは少ないデータでの学習。以前の機械学習では,犬と猫の画像を見分けるためにも百枚程度,ものによっては数千単位のデータが必要になったそうだが,大規模言語モデルでは10個ほどのデータを与えるだけで,かなり精度が高い出力が返ってくるという。
これは本稿の冒頭で少し触れた,In-Context Lerningによるもので,開発者が指示していないにもかかわらず,Transformerが少ないデータであっても次の単語を少しでも正確に予測できるよう,学習を行っているためだという。
2つめは,異なるデータ間の翻訳。たとえば日本語と英語間の翻訳を行う場合,以前は対訳データを大量に読み込ませる必要があったが,大規模言語モデルの場合はそれをせずとも,それぞれの言語での処理をするうちに概念の共有化(たとえば「時間」と「Time」を同じものだと認識する)が自動的に行われ,翻訳の方法も身につけるという。
これは言語間だけでなく,前述したようにテキストと画像といった異なる種類のデータ間でも起こっている。
3つめは,空間や時間の認識。大規模言語モデルはひたすらテキストを読み込んでいるだけで,身体性もないため,空間や時間といった概念は持っていないと考えられていたのだが,ある程度は理解していることが分かってきたという。
岡野原氏が自身の頭の中に迷路を作り,ChatGPTに「前へ行け」「右へ行け」といったように指示を出して“歩かせた”後,ツールを使って図を書かせると,迷路の図を正確に再現したとのこと。時間の概念を持っていることも,同じような実験で確認できたという。
今のところ,この能力はあまり活用はされていないようだが,岡野原氏は,今後より理解力を高めることや,人間がどうやって時間や空間を認識しているかの研究にも使えるだろうとした。
4つめは,ツールを使う能力。CahtGPTが「Code Interpreter」によって画像や音声データを扱うことができるようになったのが,その代表例だ。
ここにおいても大規模言語モデルの適応力は高く,ツールの内部を知らずとも,使用例を数回見せるだけで使いこなせるようになるとのことだ。
拡散モデル
大規模言語モデルに続いて,MidjourneyやStable Diffusionなどで使われている拡散モデルが解説された。
拡散モデルは,データに対し徐々にランダムなノイズを加えていく過程を逆にたどることによって,生成方法を学習する仕組みになっている。破壊することで生成方法を学んでいるというわけだ。
このような説明だと,言語モデルの基本が単語の出現確率を予測するものだったのと同じように,拡散モデルが画像に写っているものを理解しているかどうかが分かりづらいが,岡野原氏は,効率的にノイズを除去するためには画像に写っているものを理解する必要があると話した。拡散モデルも,「自己教師あり学習」を行っており,それによって画像に写っているものや,その背後の概念を学んでいるという。
岡野原氏によると,拡散モデルの優れた部分とともに問題点も分かってきており,あと1〜2年でフローマッチングや,その後続モデルに置き換えられるだろうと予測した。フローマッチングは,Metaの音声合成モデルにも採用されたもので,実用上,拡散モデルより優れる部分が多いとのことだ。
ニューラル場
続いては,「ニューラル場」が紹介された。これは,さまざまな角度で撮影された複数の写真から,3Dグラフィックスゲームのように視点を自由に動かせる画像を生成する「NeRF」(Neural Radiance Fields)で利用されている。
リアルな3DCGが効率的に作れるため,ゲームやメタバース制作,文化財のアーカイブ,ロボットや自動運転の開発で必要になる空間把握などに応用できるという。
講演では,Preferred Networksが手がけているプロジェクトを中心に,具体的な利用例が紹介された。
“動画をスキャン”することも可能ということで,3人のダンサーが踊るムービーが流された。カメラマンが動いているかのように視点が上下左右へ移動するのだが,撮影時は定点で,スキャン後に視点移動を加えたものだという。
ゲームがどう変わるのか
ここからいよいよ,AIによってゲームがどう変わるかが語られた。
まず挙げられたのは,キャラクターだ。Transformerを使えば,キャラクターに記憶を持たせ,それを踏まえた会話を行うことが容易になる。
「遊び人」「危険を顧みない」といった性格付けも可能で,それは言葉だけでなく,戦う,逃げるといった行動に出すこともできるとのことだ。
こういった性格付けは「アライメント」と呼ばれるが,これはゲーム用途に限らず,AI開発においては「人の役に立つように」「悪いことを言わないように」といった規範を持たせるために重要視されているという。
岡野原氏は,プレイヤーも含めて記憶を持たせることにより,ゲームにこれまでにない広がりが出てくるのではないかと期待しているとのことだ。
現時点でAIによるキャラクターがどのレベルまで来ているのかが,Googleとスタンフォード大学によるプロジェクト「Generative Agents: Interactive Simulacra of Human Behavior」を例に説明された。
ファミコンのドラゴンクエストやファイナルファンタジーを思わせるような街に,AIによってそれぞれ異なる性格付けをされたキャラクターが暮らしており,ここに人はまったく介入せず,AI同士でどんな関係の変化が起こるのかを観察するというものだ。
その結果,隣の家に行って話し込んだり,「秘密だよ」と言われたことをほかの人に話してしまったりと,予想以上に人間くさい行動が見られたとのことだ。中でも開発者を驚かせたのは,あるキャラクターがバレンタインのパーティーを思い立ち,街にいる人たちに招待状を送り,2日間にわたって開催したことだった。そのパーティーに行った人も行かなかった人もいるというのが,また面白い。
また,「Minecraft」はAIの実験環境としてよく活用されているとのことで,AIが同作のフィールドをどれくらい探険できるか,大規模言語モデルを使った実験結果が紹介された。
人間からは「この世界を探検してください」程度のおおざっぱな指示しか出していないにもかかわらず,木を切って木材を集め,それによってアイテムを作るといったスキルを身につけたという。
岡野原氏は,これらのAIについて,テストプレイを行う優秀なエージェンととなることはもちろん,この能力を前提にしたゲーム作りも可能ではないかと語った。そして最後に「今回は技術の種を説明しましたので,それをどう活用するかをみなさんで考えてください」と聴衆に呼びかけて,講演をまとめた。
4Gamerの「CEDEC 2023」記事一覧
- この記事のURL: