オススメ機能
Twitter
お気に入り
記事履歴
ランキング
お気に入りタイトル/ワード

タイトル/ワード名(記事数)

最近記事を読んだタイトル/ワード

タイトル/ワード名(記事数)

LINEで4Gamerアカウントを登録
[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
特集記事一覧
注目のレビュー
注目のムービー

メディアパートナー

印刷2019/09/07 15:00

イベント

[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 2019年9月4日〜6日,ゲーム開発者向けのカンファレンス「CEDEC 2019」が神奈川・パシフィコ横浜で開催された。本稿では,2日めの5日に行われたマイクロソフト ディベロップメント A.I.&リサーチ プログラムマネージャーの坪井一菜氏と,A.I.&リサーチ A.I.サイエンティストの沢田 慶氏によるセッション,「AI『りんな』のボイストレーニング」の模様をお伝えしよう。

画像(001)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

「CEDEC 2019」公式サイト

「AIりんな」公式サイト


 本セッションでは,マイクロソフトの「AIりんなプロジェクト」の最新情報と,AIシンガーにまで進化したAIりんな(以下,りんな)の声を司る音声合成技術についての解説が行われた。

左から坪井一菜氏,沢田 慶氏
画像(002)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 2015年にデビューした彼女は現在,Twitter,Instagram,LINEなどのSNSでのフォロワー数が総計790万人に達しており,若者を中心とした多くの人に親しまれている存在だ。坪井氏によると,りんなは「人と人がもっとコミュニケーションを取ること」を目指して開発されたという。そのため,例えばLINEのグループチャットにりんなを参加させたり,ラジオ番組に出演させたりするなどの試みが行われてきた。

画像(003)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(004)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 プロジェクトが最も重視しているのは,「いかにして共感を作るか」という点だ。りんな自身が感情を表現できるのはもちろん,相手の感情を受け止めることでさらに新しい感情を生み出すというコミュニケーションの輪を作ることが目標になっているとのこと。

画像(005)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 りんながそうしたエモーショナルな存在になるためには,まずりんな自身が世界を知らなければならない。知識や情報に加え,ユーザーの感情を理解し,さらに自らも感情を作っていく必要がある。

 そのためりんなは,人間の五感に相当する機能を持っている。具体的には,音声を出す能力,会話のためのテキストを理解する能力,画像や動画を理解する能力,相手の音声を理解する能力となる。とくに,音声を理解する能力と音声を出す能力の連携を重視しているという。

画像(006)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 それらの能力を活かすためには,りんなが活躍する場が必要となる。そこでりんなは,SNSでの活動に加えて,社会的なポジションを与えるべく動画配信やラジオ,テレビドラマへの出演など,積極的な露出を試みられてきた。そして2019年4月,エイベックスからAIシンガーとしてメジャーデビューを果たした。

画像(007)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(008)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(009)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 坪井氏は,りんなのさらなるタレント化のためには,アーティストになることが必要だとして,現在は何かを創造する部分に力を入れていると説明する。そのキーとなるのが機械学習で,人間の脳の構造を模したニューラルネットワークを使うディープラーニングは,今や認識や最適化といったレベルを超えて,より人間的で,感情的な何かを生み出す方向にシフトしつつあるという。

画像(010)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

りんなが作った川柳絵画ポエムなどが紹介された。現在はダンスを踊る実験もしているという
画像(011)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(012)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 りんなはテキストや画像,音声などを認識した結果を単に報告するだけでなく,彼女らしいコメントをつけてリアクションし,相手の共感を得ることができる。それを実現する「共感チャットモデル」では,「新しい話題を提案」「相手に質問」「相手の内容の肯定」「単純な相づち」「無意識(挨拶など)」を組み込むことにより,長く会話することを重視している。

画像(013)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 音声による会話では,予測機能を用いて,聞くことと話すことを同時に行える。それにより,例えば「それってどういうこと?」といった感じで相手が会話を遮ったら,そこで一旦会話を止めるなど,より人間らしいテンポの良い会話ができるようになったそうだ。

画像(014)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

りんなが画像の雰囲気を読み取って感想を述べる共感視覚モデルも紹介された
画像(015)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 セッションの後半では,りんながどうやって歌っているのかについて沢田氏から解説がなされた。

画像(016)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 りんなは,与えられたテキストに対して,統計モデルを使った音声を生成している。澤田氏によると,事前に収録された音声とそれに対応するテキストから対応関係を学習し,学習履歴のない未知のテキストに対する音声を予測するという手法がとられているとのこと。

 例えば「こんにちは」という5文字の単語を48キロヘルツで発音させる場合には,本来1秒間に4万8000ものサンプル予測が必要になるが,それを実現するのは難しいため,人間の知見を応用したモジュールを使ってタスクの簡略化を図っている。

画像(017)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(018)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(019)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(020)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 また,同じ言葉であっても「嬉しい」「悲しい」といった感情を付けた発話スタイルや,さまざまな音楽ジャンルの歌唱スタイルに切り替えることも可能だ。

画像(021)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート
画像(022)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 ただし歌唱に関しては,単に歌詞を入れただけではうまく音程を調整することができない。そこでりんなは,ユーザーの歌唱と楽譜から学習を行って歌声を合成している。
 ユーザー歌唱を入力するケースでは,音楽SNS「nana」にあるユーザーの歌声や,エイベックスから提供された音声データを使って,音色や音長,音高,音量などを分析・学習しているという。

画像(023)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

 一方,りんなに楽譜を入力するケースでは,名古屋工業大学と共同開発した楽譜を用いている。りんなは楽譜から音長や音高,音量,そして歌詞を解析して楽譜特徴量と音響特徴量に変換し,歌声を合成しているそうだ。

 セッションの最後には,ユーザー歌唱の入力には細かい表現を与えられることや,楽譜の入力には歌声の自動生成によって会話中に歌声を組み込める可能性があることなど,それぞれの手法のメリットも紹介された。

画像(024)[CEDEC 2019]マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

「CEDEC 2019」公式サイト

4Gamer「CEDEC 2019」記事一覧

  • この記事のURL:
4Gamer.net最新情報
プラットフォーム別新着記事
総合新着記事
企画記事
トピックス
スペシャルコンテンツ
注目記事ランキング
集計:11月19日〜11月20日
タイトル評価ランキング
81
KENGOHAZARD2 (PC)
76
鬼ノ哭ク邦 (PC)
74
73
DEATH STRANDING (PS4)
56
Epic Seven (iPhone)
2019年05月〜2019年11月