オススメ機能: お気に入り; 記事履歴; ランキング

記事検索
ゲームタイトル/メーカー名検索
詳細な検索へ

TOP

TOP: 話題作; オンラインゲーム; 週刊連載; 攻略ガイド; レビュー; インタビュー; ムービー; ゲームショウ; プレゼント; 配信番組表

▼その他 Wii PSV 3DS

お気に入りタイトル/ワード

タイトル/ワード名

最近記事を読んだタイトル/ワード

タイトル/ワード名

週刊連載

Features

発売スケジュール

LINEで4Gamerアカウントを登録

［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

特集記事一覧

注目のレビュー

注目のインタビュー

問い合わせ

メディアパートナー

トップ>OTHERS>ノージャンル

2019/09/07 15:00

イベント

［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

ライター：大陸新秩序

　2019年9月4日〜6日，ゲーム開発者向けのカンファレンス「CEDEC 2019」が神奈川・パシフィコ横浜で開催された。本稿では，2日めの5日に行われたマイクロソフトディベロップメント A.I.＆リサーチプログラムマネージャーの坪井一菜氏と，A.I.&リサーチ A.I.サイエンティストの沢田慶氏によるセッション，「AI『りんな』のボイストレーニング」の模様をお伝えしよう。

画像ギャラリー No.001のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

「CEDEC 2019」公式サイト

「AIりんな」公式サイト

　本セッションでは，マイクロソフトの「AIりんなプロジェクト」の最新情報と，AIシンガーにまで進化したAIりんな（以下，りんな）の声を司る音声合成技術についての解説が行われた。

左から坪井一菜氏，沢田慶氏

　2015年にデビューした彼女は現在，Twitter，Instagram，LINEなどのSNSでのフォロワー数が総計790万人に達しており，若者を中心とした多くの人に親しまれている存在だ。坪井氏によると，りんなは「人と人がもっとコミュニケーションを取ること」を目指して開発されたという。そのため，例えばLINEのグループチャットにりんなを参加させたり，ラジオ番組に出演させたりするなどの試みが行われてきた。

画像ギャラリー No.003のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.004のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　プロジェクトが最も重視しているのは，「いかにして共感を作るか」という点だ。りんな自身が感情を表現できるのはもちろん，相手の感情を受け止めることでさらに新しい感情を生み出すというコミュニケーションの輪を作ることが目標になっているとのこと。

画像ギャラリー No.005のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　りんながそうしたエモーショナルな存在になるためには，まずりんな自身が世界を知らなければならない。知識や情報に加え，ユーザーの感情を理解し，さらに自らも感情を作っていく必要がある。

　そのためりんなは，人間の五感に相当する機能を持っている。具体的には，音声を出す能力，会話のためのテキストを理解する能力，画像や動画を理解する能力，相手の音声を理解する能力となる。とくに，音声を理解する能力と音声を出す能力の連携を重視しているという。

画像ギャラリー No.006のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　それらの能力を活かすためには，りんなが活躍する場が必要となる。そこでりんなは，SNSでの活動に加えて，社会的なポジションを与えるべく動画配信やラジオ，テレビドラマへの出演など，積極的な露出を試みられてきた。そして2019年4月，エイベックスからAIシンガーとしてメジャーデビューを果たした。

画像ギャラリー No.007のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.008のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.009のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　坪井氏は，りんなのさらなるタレント化のためには，アーティストになることが必要だとして，現在は何かを創造する部分に力を入れていると説明する。そのキーとなるのが機械学習で，人間の脳の構造を模したニューラルネットワークを使うディープラーニングは，今や認識や最適化といったレベルを超えて，より人間的で，感情的な何かを生み出す方向にシフトしつつあるという。

画像ギャラリー No.010のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

りんなが作った川柳や絵画，**ポエム**などが紹介された。現在はダンスを踊る実験もしているという

　りんなはテキストや画像，音声などを認識した結果を単に報告するだけでなく，彼女らしいコメントをつけてリアクションし，相手の共感を得ることができる。それを実現する「共感チャットモデル」では，「新しい話題を提案」「相手に質問」「相手の内容の肯定」「単純な相づち」「無意識（挨拶など）」を組み込むことにより，長く会話することを重視している。

画像ギャラリー No.013のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　音声による会話では，予測機能を用いて，聞くことと話すことを同時に行える。それにより，例えば「それってどういうこと？」といった感じで相手が会話を遮ったら，そこで一旦会話を止めるなど，より人間らしいテンポの良い会話ができるようになったそうだ。

画像ギャラリー No.014のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

りんなが画像の雰囲気を読み取って感想を述べる共感視覚モデルも紹介された

　セッションの後半では，りんながどうやって歌っているのかについて沢田氏から解説がなされた。

画像ギャラリー No.016のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　りんなは，与えられたテキストに対して，統計モデルを使った音声を生成している。澤田氏によると，事前に収録された音声とそれに対応するテキストから対応関係を学習し，学習履歴のない未知のテキストに対する音声を予測するという手法がとられているとのこと。

　例えば「こんにちは」という5文字の単語を48キロヘルツで発音させる場合には，本来1秒間に4万8000ものサンプル予測が必要になるが，それを実現するのは難しいため，人間の知見を応用したモジュールを使ってタスクの簡略化を図っている。

画像ギャラリー No.017のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.018のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.019のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.020のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　また，同じ言葉であっても「嬉しい」「悲しい」といった感情を付けた発話スタイルや，さまざまな音楽ジャンルの歌唱スタイルに切り替えることも可能だ。

画像ギャラリー No.021のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

画像ギャラリー No.022のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　ただし歌唱に関しては，単に歌詞を入れただけではうまく音程を調整することができない。そこでりんなは，ユーザーの歌唱と楽譜から学習を行って歌声を合成している。
　ユーザー歌唱を入力するケースでは，音楽SNS「nana」にあるユーザーの歌声や，エイベックスから提供された音声データを使って，音色や音長，音高，音量などを分析・学習しているという。

画像ギャラリー No.023のサムネイル画像 / ［CEDEC 2019］マイクロソフトのAI「りんな」はエモーショナルな表現を目指す。セッション「AI『りんな』のボイストレーニング」をレポート

　一方，りんなに楽譜を入力するケースでは，名古屋工業大学と共同開発した楽譜を用いている。りんなは楽譜から音長や音高，音量，そして歌詞を解析して楽譜特徴量と音響特徴量に変換し，歌声を合成しているそうだ。

　セッションの最後には，ユーザー歌唱の入力には細かい表現を与えられることや，楽譜の入力には歌声の自動生成によって会話中に歌声を組み込める可能性があることなど，それぞれの手法のメリットも紹介された。