イベント
[CEDEC+KYUSHU]テキストから架空言語のボイスを作り出す手法が解説されたセッションをレポート。意味が分からないからこそ,リアルになる
スクウェア・エニックスのAI部 AIリサーチャーの森 友亮氏が,言語学の知識なしに架空言語の音声を生成する手法について語った模様をレポートしよう。
テキスト音声合成で,架空言語ボイスを作りあげる
地球上のどこにも存在しない言語を作り,異世界感を盛りあげる「架空言語」は,創作における“華”の一つかもしれない。小説「指輪物語」のエルフ語などをはじめとし,さまざま架空言語が作品世界を彩っている。
架空言語をしっかりと作るには,言語学の専門的な知識に加え,新たな言語体系を組み立てるための膨大な手間が必要になる。これを言語学の知識なしで作り出し,なおかつ,演者の音声を収録するのではなく,プレイした結果に応じてリアルタイムに生成できれば,ゲーム開発において非常に役立つことは間違いない。
森氏は,近年機械学習で使い勝手が良くなったテキスト音声合成を駆使し,テキストから架空言語風のボイスを作り出す手法を解説した。
テキスト音声合成は,テキストデータの読み上げツールなどで使われている。割と身近な技術だが,使った人の多くは「読み上げてはくれるけれど,ちょっと不自然なところがある」と感じているのではないだろうか。
ちょっとした不自然さを敏感に感じ取ってしまうのは,それが自分の母語だからという理由が大きい。普段,人間による流ちょうで自然な喋りに慣れているからこそなのだ。
テキスト音声合成の流れは以下の通りだ。
読み込まれたテキストは,コンピュータが扱える形式の「テキスト特徴量」に変換される。テキスト特徴量は「音声特徴量変換器」で「音声特徴量」へ変換され,これが「音声変換器」に読み込まれることで,実際の音声が出力される。
音声特徴量変換器と音声変換器には言語依存性があり,日本語音声を出力したい場合は,日本語用のものが用いられるのだが,ここで「母国語で聞くのだから違和感がある。なら,他の言語にすればどうなるか?」という発想が生まれる。
会場では実際に,日本語のテキストを英語の音声特徴量変換器と音声変換器に読み込ませて作った,英語風の架空言語ボイスが再生されたのだが,日本語のようでありつつ,英語のようであるという,不思議な印象になる。
面白いことに,この英語風架空言語にはテキスト音声合成特有の不自然さを感じることがない。誰にとっても未知の言語であるため,聞き慣れた母語の音声合成を聞く時のような違和感がなく,「そういう言語」として受け取れる。
そして,テキストから英語風架空言語の音声を作れるということは,テキストを書き換えるだけで別の音声(台詞)も作れることを意味する。演者に頼む必要がないので手軽だ。演者に架空言語を学んでもらって収録する手法と比べると,いかに経済的かつ効果的かが分かるだろう。
今回紹介された手法は英語風架空言語というある種の法則性をもって音声が変化するので,架空言語としての“説得力”は大きい。また,テキストを変換するため,字幕の長さに応じた英語風架空言語が作れるメリットもある。
音声特徴量変換器と音声変換器をほかの言語のものに変えれば,同じテキストから違ったテイストの架空言語ができあがるので,ゲーム内の土地のそれぞれに割り振り,方言や別言語として扱うことも可能だ。「架空の世界なのに,日本語で喋っている」「架空世界のどこでも同じ言葉が使われている」という違和感を解消できるというわけだ。
音声特徴量変換器では,テキストを音素の「トークン」に変換し,これをベクトルに変換している。英語の場合は一般的にテキストを78種のトークンに変換しているそうだ。例えば,日本語のテキストで英語風架空言語を作るとしよう。この場合,日本語テキストを変換した際の結果を78種のトークンに対応付けることができ,英語ではない要素に対しての処理も定義されていれば良いのだという。
もちろんこの手法は,言語学の知識を用いるような伝統的手法での架空言語作りと置き換わるものではない。しかし,架空言語をゲームに取り入れる場合には,かなり有望な手法であると感じられた。
人に分かる音声を作り出すことがテーマの音声合成において,分からないことがかえってリアリティを生み出すのも面白い。この手法は現時点で商品化されているわけではないため,導入にどの程度のコストがかかるかは不明だが,個人的には,演者を頼む余裕のない予算の限られたインディーズゲームや,友達とのTRPGセッションなどにおいて,異世界的リアリティを出す際に活用できるぐらい手軽なものを期待したいところだ。
4Gamer「CEDEC+KYUSHU 2022」関連記事一覧
「CEDEC+KYUSHU 2022」公式サイト
- この記事のURL: