イベント
[GTC 2018]西川善司の3DGE:Voltaの熟成を狙うNVIDIAは,サーバー向けやAI用途への拡大を進める
GPU Technology Conference(以下,GTC)では2016年まで,GPUアーキテクチャのロードマップ開陳が定例行事となっていたのだが,それまでの「GPU関連技術会議」からディープラーニングとAI,自動運転のイベント的な色彩がぐっと濃くなった2017年,氏はより具体的なGPU技術の応用について語り,GPUロードマップを明らかにしなかった(関連記事)。ならば今年はどうかというと,その方向性が明確になったと言え,つまりロードマップの披露はまたしてもなかったわけだが,ならNVIDIAの総帥は年に一度のイベントで何を語ったのか。今回は,筆者なりの重み付けに基づいて,考察を交えつつも内容を紹介してみたい。
メモリを倍増したマイナーチェンジ版GV100を披露も,
GPUアーキテクチャの刷新はなし
GPUロードマップの話がなかっただけで,GPUの話がなかったわけではもちろんない。まずは,4Gamer読者にとって一番の関心事であるGPUの話から始めよう。
Tesla V100のベースとなっているGV100は,「ローカルメモリとしてのHBM2をGPUダイの周辺4か所に実装したパッケージ」を採用しているのだが,1か所あたりのHBM2容量は4GBだった。それに対してHBM2容量32GB版GV100では,1か所あたりのHBM2容量を2倍の8GBにすることで,総容量も2倍にしたわけだ。
NVIDIAによると,HBM2容量32GB版GV100のGPUコアは2017年モデルのGV100と同一だという。つまり,Tesla V100 32GBの演算性能自体は,従来のTesla V100からまったく変わらないということになる。
GP100,GV100と,基調講演に合わせて順調にGPUアーキテクチャの刷新を行ってきたNVIDIAが,2018年は新アーキテクチャがないと聞くと,「いよいよNVIDIAも足踏みか」と思うかもしれないが,実は無理もないことだったりする。
GV100は,半導体製造事業者のTSMCがNVIDIA GPU専用に用意したプロセス技術「12nm FFN」(FFN:FinFET NVIDIA custom)を用いて製造されている。ところが,ダイサイズが815mm2もあるGV100は,Huang氏も自負するように,「地球上に現存する最新最先端の露光装置が一括で露光できる最大限界のサイズ」となっているため,半導体のダイサイズをこれ以上大きくするわけにはいかないのだ。
GV100のサイズを維持したままトランジスタ数を増やすためには,製造プロセスの微細化が不可欠となる。最近のNVIDIA製トップエンドGPUにおける総トランジスタ数は,世代ごとに約1.4倍の増加量を示していた。そのため,約210億トランジスタを集積したGV100の“次”では約300億トランジスタ前後に達することが見込まれるわけだが,この規模のプロセッサを製造できるプロセス技術の選択肢が現在のところ存在しない。なのでNVIDIAとしても,今回はGV100のマイナーチェンジに留めるしかなかったのだと思われる。
気になるリリース時期だが,Tesla V100 32GBとQuadro GV100はいずれも4月発売予定となっている。
GV100搭載の製品と言えばGeForce Driverで動作する「TITAN V」もあるので,「こちらもHBM2容量32GB版へ切り替わったりするの?」と思うかもしれないが,その点についてHuang氏が基調講演でわざわざ「TITAN Vが品切れになっていて申し訳ない。この問題はいずれ解決する」と述べていた点は興味深いところだ。希望的観測を加味して深読みするなら,TITAN VもHBM2容量32GB版として4月以降にモデルチェンジする可能性はあるだろう。
GV100を相互接続する「NVSwitch」と,16基のGPUを実際につないだGPUサーバー「DGX-2」も発表に
ハードウェア回りで大きな発表はもうひとつあった。
それが,最大で16基のGV100を相互接続できるインターコネクト技術「NVSwitch」だ。チップセットの一種という理解でも構わない。
基調講演におけるNVSwitchの説明は,細部を省略していたものだったので,少し噛み砕いて解説しよう。
NVSwitchは1基あたり18リンク分のGPU相互接続機能を持っており,1リンクの内訳は,片方向あたり25Gbpsの帯域幅を持った双方向伝送路が8レーンとなっている。つまり,NVSwitchあたりの最大データ転送速度は,
- 25Gbps
×2(※双方向) ×8レーン ×18リンク =7200Gbps
となる。“GB換算”で900GB/sだ。
一方のGV100側は6リンク分のNVLinkインタフェースを持っている。なので,
- 900GB/s÷(18リンク÷6リンク)=300GB/s
という計算式から,NVSwitchを介したGPU間伝送の帯域幅は上り下りの双方向合わせて300GB/sということになるわけだ。
そんなNVSwitchを12基まとめ,16基のHBM2容量32GB版GV100を相互接続させたシステムとなるのが,3月28日の記事で速報をお伝えしている「DGX-2」だ。
HBM2容量32GB版GV100のCUDA Core数は5120基なので,DGX-2の総CUDA Core数は16倍の8万1920基。NVIDIAが主張する理論演算性能値は性能をGPUの数で単純に掛けたものになるため,よって,単精度浮動小数点演算性能値(FP32)は15.7 TFLOPS×16基=251.2 TFLOPS,行列計算専用プロセッサ「Tensor Core」による総演算性能値は125 TFLOPS×16 GPU=2000 TFLOPSとなる。
Huang氏はTensor Coreによる総演算性能値を2 PFLOPS(ペタフロップス,=2000 TFLOPS)としていたが,計算式的としてはこんな感じだ。
総メモリ容量は32GB×16 GPU=512GBで,Aggregate bandwidth(総メモリ帯域幅)は14.4TBに達すると,Huang氏はアピールしていた。ただ,実効メモリ性能はGPUあたりのメモリ性能を上回れないため,GV100の公称メモリ帯域幅である900GB/sと理解するのが正しいと思う。
ところで,DGX-2は16基のGPUを搭載するシステムだが,実際の構成は,6基のNVSwitchで8基のGPUを相互接続した単位を1クラスタとして,クラスタ同士を従来のNVLink(※NVLink Plane Card)で相互接続することにより2クラスタ構成としている。DGX-2の「2」には,「2世代め」「2倍の性能」という意味だけでなく,「2クラスタ構成」という意味も込めてある可能性はあるだろう。
DGX-2のリリースは2018年第3四半期の予定で,価格は39万9000ドル(約4254万円)とのこと。HBM2容量16GB版GV100を8基使った「DGX-1」が約15万ドルだったので少々割高に思えなくもないが,GPU数と総メモリ容量が倍増したことを考えると,妥当な設定なのかもしれない。
リアルタイムのゲームグラフィックスではなく,映像製作の効率改善で紹介されたRTX
「RTXとは何か」は筆者の連載バックナンバーを参照してほしいが,簡単におさらいしておくと,MicrosoftはGDCでDirectXにレイトレーシングのパイプラインを統合し,それを「DirectX Raytracing」(以下,DXR)として発表したのだが,そのNVIDIA版ランタイムにあたるものがRTXである。
つまり,RTXを用いることで,レイトレーシングによるレンダリング速度が従来よりも大幅に短縮されるため,従来よりも低コストで映像製作を行えるようになるというアピールである。
Huang氏は講演で,「コストは5分の1に,レンダリングサーバーの設置面積は7分の1に,消費電力も7分の1になる」と主張したうえで,「More you buy GPUs, more you save!」(GPUをいっぱい買って節約しよう!)と叫び,聴衆の笑いを誘っていた。
余談だが,Huang氏はどうも「GPUをいっぱい買って節約」のフレーズが気に入っているようで,最近はことあるごとに繰り返していたりする。
GPUコンピューティングに関連した発表も
GPUコンピューティング(GPGPU)と呼ばれる,GPUを汎用目的に応用する用途は,近年のNVIDIAが最も力を入れている分野である。ビジュアルコンピューティングや機械学習ベースの人工知能(AI),自動運転といったものがその代表例だが,今回の基調講演でもHuang氏は,数多くの発表や事例紹介を行っていた。かいつまんで紹介しておこう。
まずは,医療機関向けのビジュアルコンピューティングシステム(Medical imaging supercomputer)「Project Clara」である。
肉体を切り開いたりせずに体内の様子を可視化する技術には,超音波画像診断法や磁気共鳴映像法(MRI),コンピュータ断層撮影法(CT)などがある。ただ,これらの手法で得られる画像や映像は,基本的に白黒の映像だ。そこで,機械学習で蓄積した情報の応用によって白黒映像をカラー化したり,体内の器官ごとに色分けしたり,あるいは疾患部を見分けやすいようにマーキングしたりできるよう,NVIDIAはProject Claraの開発を進めているという。
次に,機械学習ベースのAI関連の発表は2つあった。
1つは,NVIDIA製GPU用の機械学習ライブラリ「TensorRT」が新バージョンの「TensorRT4」となり,Googleの機械学習ライブラリ「TensorFlow」と相互連携が取れるようになったことだ。これにより,機械学習ベースのAI開発をNVIDIA製GPU上で効率よく行えるようになるという。
2つめは,コンテナ化したアプリケーションの自動展開や自動運用に対応したオープンソースのプラットフォーム「Kubernetes」(クーベネティス)に,NVIDIAのGPUサーバーが対応したことだ。基調講演でHuang氏は,仮想マシンで展開したアプリケーションによる推論実行がGPUで高速に処理される様子を披露していた。
これは,自動運転AIの訓練を仮想世界で行うためのもので,「DRIVE Sim」と「DRIVE Pegasus」という2つのシステムから成る。
DRIVE Simは,現実世界の道路状況に近いシチュエーションを,リアルタイムのCGで再現した走行映像だけでなく,レーダーやライダー(LIDAR)といった自動運転に必要な各種センサー情報と合わせて出力できるシステムだ。
2つめのDRIVE Pegasusは,すでに発表済みの自動運転AI開発プラットフォームである。
ようするに,仮想世界の道路や他車,歩行者などをDRIVE Simが作り出し,その仮想空間内を「DRIVE Pegasus上に実装した自動運転AI」に走らせることにより,学習を積ませようというわけだ。
GTC 2018の開幕直前に,シェアライドサービスであるUberの自動運転AI開発車が人身事故を引き起こし,この事故で被害者は死亡してしまった。
この事故と直接の関係はないものの,自動運転技術に関わる業界各社では現在,「路上実験をやる前に事前の学習を十分に行うべき」という風潮になりつつあり,NVIDIAの発表したDRIVE
Volta世代のGeForceはいつ出るのか
冒頭で,GPUロードマップの開陳はなかったという話をしたが,実のところ,「自動運転関連技術の将来製品」に関してだけは,ロードマップの公開があった。
先述した自動運転AI開発プラットフォームのDRIVE Pegasusは,NVIDIA製SoC(System-on-a-Chip)である「DRIVE Xavier」とVolta世代の単体GPUを2基ずつ搭載したシステムになっている。それが,次世代のSoC――今はもう「Tegra」とは呼ばなくなってしまったが,系統としてはTegra系の次世代SoC――である「Orin」(オーリン)になると,同等の性能を2チップに集約できるというのが新情報だ。
ただ,Orinの概要や登場時期は明らかになっていない。
というわけで,製造プロセス技術の微細化という大きなハードルもあり,GPUの具体的な進化についてはほとんど明らかにならなかった今回のGTC 2018だが,なら4Gamer読者にとって最大の関心事項である「GeForce GTX 10シリーズの次はいつなのか」がまるで見えないかというと,実はそうでもない。
2018年の秋にはDXRが正式リリースとなる見込みで,RTXがVolta世代以降のGPUを要求していることからして,秋までには出るというのが筆者の見解だ。
次の大きなイベントは,6月のCOMPUTEX TAIPEI 2018とE3 2018なので,このあたりには動きがありそうだが,どうだろうか。
NVIDIA公式Blogの基調講演に関するポスト(英語)
- 関連タイトル:
Volta(開発コードネーム)
- 関連タイトル:
NVIDIA RTX,Quadro,Tesla
- この記事のURL:
キーワード
Copyright(C)2010 NVIDIA Corporation