イベント
[CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する
ディープラーニングがどのような技術なのかについては,以下の記事が詳しいので,あわせて読んでいただければ幸いだ。
関連記事:
[GTC 2015]GPUが機械学習型AIを人間より賢くする? NVIDIA CEOによるGTC 2015基調講演レポート
画像認識率で人間を超えてしまったディープラーニング
ディープラーニングはいま大変なブームである。学会とITを含む産業界の双方が盛り上がっているのが特徴で,学術側では大量の論文が出されている一方,産業界側ではディープラーニングをビジネスに結びつける動きが始まっている。つまり研究と応用が平行してものすごい勢いで進んでいるわけだ。
もっとも,過去の人工知能ブームをご存じで「また一過性で終わるのでは」と見ている方もそれなりに多いのではないかと思う。過去においても,人工知能がすごいと喧伝されたものの,蓋を開けてみればたいしたことができずブームが去っていったという事例があるからだ。
CEDEC 2015における松尾氏の講演は,ディープラーニングが「今度こそ本物」であるとアピールする内容だ。ではどこが本物なのだろうか?
人工知能は1950年代に研究がスタートしており,そろそろ60年の歳月がたとうとしている古い分野だ。そうした中で松尾氏は今回のディープラーニングこそ「(人工知能の歴史)50年来のブレイクスルーを成し遂げた画期的な技術」と強調する。
どこがブレイクスルーなのかというと,それは人工知能が学習する能力を獲得している点にある。下のスライドのように「表現獲得」などと言われるのだが,ちょっと分かりにくいかもしれない。ゲームの人工知能で例えるなら,たとえば人工知能で動くキャラクターがマップを移動する際に「ここは通れる,ここは通れない」ということをデザイナーが指定する必要がある。ゲームAIはデザイナーの指定から目的の場所までの移動経路を算出してキャラクターが移動するという形だ。
一方,学習が可能な人工知能なら,マップを与えるとキャラクターが試行錯誤の末に通れる地形と通れない地形を知り,それに基づいて行動することが可能になる。こうなると,キャラクターが新たな地形に遭遇しても,これまでの学習に基づいて通れるか通れないが判断するといったこともできるようになる。
機械学習と一口に言ってもいくつか方法があるが,その中で脚光を浴びている手法の一つがディープラーニングである。ディープラーニングはニューラルネットワーク(擬似神経細胞:ニューロンのネットワーク)の大規模版で,松尾氏はその概要をざっくりと解説してくれた。
下のスライドはAuto encoderと呼ばれるシンプルな3層のニューラルネットワークで,下の列が入力,上の列が出力になる。このネットワークの入力に,たとえば3という数字のイメージを与えて出力に同じイメージが出てくるようにすると,中間のニューロン(スライドで隠れ層と書かれているところ)に数字のイメージの特徴点が現れる。
なにか意味がないことをやっているように思えるかもしれないが,Auto encoderのポイントは学習によってイメージの特徴が抽出できたというところだ。
この3層のネットワークの出力を入力に戻し,さらにネットワークを積み重ねていったのがディープラーニングである。こうすることで,上位の層で「このイメージは何であるか」という概念が獲得できるようになる。
概念というとすごく分かりにくいが,具体的にはディープラーニングに画像の学習を行わせると,上位の層には,学習したものと似た画像によく反応するニューロンが現れるようになる。つまり学習させたあと,いろいろな画像を入力してやると,自分が学習した画像に似ている,似ていないということが判断できるようになるのである。
ディープラーニングの初期の成果として有名なのが2012年に発表されたGoogleの研究だ。これは12層のニューラルネットワークにインターネット上にある人や猫の顔の画像を大量に入力してやった結果,人や猫の顔の画像が判別できるようになったというものである。
画像認識は,ディープラーニング以前からコンピュータの一つの課題として多くの研究が行われてきた分野で,松尾氏によると学会による画像認識のコンテストも開催されてきたという。従来型の画像認識は「10年間,一生懸命研究してやっと認識率が1%向上する」(松尾氏)程度で,極めて難度が高い課題と考えられてきた。
だが,ディープラーニングの登場によって一気に10%も認識率が向上してしまったという。「ディープラーニングは画像認識において10年分のイノベーションを実現してしまった。画像認識の研究者は,この結果に衝撃を受けた」(松尾氏)とのことだ。
Googleの成果から3年が経過して,ディープラーニングの画像認識精度はすでに人間を超えてしまっているのだそうだ。コンテストに使われる画像は人間でも5%程度の誤認があるそうだが,2015年にはGoogleやMicrosoftのディープラーニングが5%を切る誤認率を叩きだしている。
さらに2015年には,約2億枚の画像から800万人の人間を見分けるという恐るべき成果もニュースになった。認識精度は99%以上というとんでもないもので,こうなってくると人間には不可能なことが実現できていると言っていいだろう。そもそも人間が約2億枚の画像を見分けるなど,時間的にも体力的にも無理で,仮に可能だったとしてもやりたがる人はいないだろう。
ニューラルネットワークを使った画像認識は,実のところ新しいアイデアではなく,最初期には,1979年に福島邦彦博士が電子通信学会に発表した「ネオコグニトロン」というものがある。これは現在のディープラーニングのアイデアに極めて近いのだが,これまでは計算機のパワーが足らなかったり,ニューラルネットワーク自体がなかなか難しいという事情があって進歩が停滞していた。
しかし,人間を超える画像認識が可能になった今,「コンピュータで知能が実現できるという初期仮説に立ち戻るべきだ」と松尾氏は主張する。
松尾氏はさらっと言ってのけたのだが,ここは議論があるところかもしれない。これはあとの話にもつながるが,ディープラーニングはいまのところ概念を獲得できたという段階で,獲得した概念が何であるかという意味を捉えることができたわけではないのだ。たとえば,顔の概念は獲得できるが,顔が持つの意味をコンピュータが理解できたわけではない。
この限界を示すいい例は機械翻訳だろう。現状,機械翻訳には統計的手法が使われており,ラテン語系の言語間の翻訳はそこそこ精度が上がっているが,日本語から英語あるいは英語から日本語の翻訳の精度はまだかなり低い。
というのは,日本語と英語は単語や文法が大きく異なっており,統計的手法だけで自然な訳語が得られないためだ。このような,大きく異なる言語の翻訳を行うには,文章の意味を把握し,意味から翻訳を行う必要があるが,意味を把握することはディープラーニングを含め,現在の人工知能には難しい。
そもそも論として「意味を理解する主体は何者であるのか」という根源的な問いがある。意味を理解することができる人間の大脳は,約200億のニューロンがあり,1つのニューロンあたり約8000本のシナプスによる複雑怪奇なネットワークを作り出している。シナプスの接続数は観測できる星の数より多い,といったらその規模が分かるだろうか。
しかも,この大脳ネットワークは多分にアナログ的で,ネットワークが取りうる状態はおそらく無限だろう。無限の状態を取りうる大脳と似たネットワークをコンピュータ上に作れるのだろうか? これはなかなか難しい問題で,人間の知能とは一体何なのかという哲学にも関わってくるところではないだろうか。
ディープラーニングは日本を飛躍させる
さて,松尾氏は講演の後半,ディープラーニングがもたらす未来について話を広げていった。下のスライドは松尾氏が考える今後の人工知能の発展を示したものだ。
現在はディープラーニングによって画像などの学習と認識ができるようになった段階で,スライドの(1)をクリアしたところだ。
だが,静止画の認識率が人間を超えているのに「動画になるととたんに認識できなくなる」(松尾氏)という問題がある。それを解決するのが(2)のマルチモーダルである。動画やセンサーなど時間変化を持つ入力から特徴を取り出して学習するというもので「この分野はいま研究者が盛んに取り組んでいて,そう遠くない将来実現するはず」(松尾氏)とのことだ。
3番めの行動というのは,たとえば自動車の自動運転のようなものを思い浮かべると分かりやすい。カメラなどのセンサーから取り込んだ情報から,次にどう動くべきか決めるというような知能である。
4番めのインタラクションは環境との相互作用,そして5番めの言葉とのひもづけと6番めの言語からの知識獲得は,先に筆者が指摘した言語,意味といった部分に関わる難度の高い人工知能になってくる。
これらのうち,実は3番めや4番めはゲームAIとも関わりが深いところで,ゲームキャラクタの自律行動,自律判断といった面からゲームAIでも試行錯誤が行われているので,リアルなAIとゲームのAIの研究が相互作用できる分野かもしれない。
現状では画像認識しかできないとはいえ,人間を超えた部分を持つディープラーニングだけに応用は多岐にわたる。下のスライドは松尾氏が提案するディープラーニングの応用だが,面白いなと思ったのは「情報システムのセキュリティ」の部分だ。サーバーのアクセスパターンを学習してパターンから外れるとアラートを出す,といったことが可能になれば,セキュリティの向上にかなり効果がありそうな気がする。
実際,クレジットカードの代わりに顔を使って支払いを行うという試みがすでに行われているそうだ。顔で支払いができれば「たとえばコンビニに入って飲み物とパンを取って出たら,その場で(何もしなくてもお金が)引き落とされる」(松尾氏)というようなことも可能になる。
こうしたディープラーニングの応用は一見進んでないように見えるが,それはディープラーニングの発展があまりにも速すぎたためだと松尾氏は指摘していた。「あまりにも進歩が速すぎたため産業界がついてこれない,そういう状況がある」(松尾氏)というが,実際,Googleが成果を上げた2012年から,まだ3年しか経っていないわけで,社会への応用,マネタイズといった部分がまだ見えないのは仕方がないかもしれない。
そんなディープラーニングは日本にとって大きなチャンスだと松尾氏は主張する。その理由は,まずディープラーニングは新しい市場を作るものではなく,現状を改良,改善するものだからだそうだ。「日本はインターネットのように新しい市場を作り出すことは苦手だが,改良や改善は得意だ。ディープラーニングは改良や改善に役立つ日本向きの技術」だという。機械学習を生産技術などにつなげていければ,労働人口の減少を補うこともできるので,その面でも日本向きかもしれない。
さらに「第二次人工知能ブームを覚えている人が上にいるのも利点」とのことだ。1980年代のブームで人工知能を学んだ人が上役になっているため,理解を得やすいのが利点だというのだが,これは弱点にもなりそうな気もする。その世代はブームが一過性だったことも覚えているので,懐疑的にもなるかもしれないからだ。
そんなディープラーニングだが,ロボットなどに使う研究はすでに始まっていて,2つほど例が紹介されたのでスライドで示しておきたい。
もちろん日本でも産官学をあげてディープラーニングに関する動きがスタートしている。たとえばドワンゴが研究所を立ちあげるとか,国が支援する研究が始まるかもといった段階にある。
遅きに失したんじゃないの,と言う人もいるかもしれないが,松尾氏によれば決してそんなことはないという。ディープラーニングはまだ始まったばかりの技術で,2012年の成果からたった3年しか経っていないからだ。日本には人工知能の研究者が多いというアドバンテージもあるので,松尾氏は「3年の遅れなどすぐに取り戻せる」と強調していた。
というようなわけだが,じゃあゲームは? と聞きたくもなるんじゃなかろうか。松尾氏はゲームについて一切語らなかったのだが,ディープラーニングのゲームへの応用はまさにCEDECに集まったゲーム開発者やデザイナーが考えるべきことということかもしれない。松尾氏が語るようにディープラーニングはまだ始まったばかり。アイデア募集中というステージなので,読者もゲームにどう応用するか夢想してみるのも楽しいだろう。
- この記事のURL: