イベント
[GTC 2017]NVIDIA,Volta世代の数値演算アクセラレータ「Tesla V100」を発表。815平方mmのダイサイズに5120基のCUDA Coreを集積
Huang氏が明らかにしたところによると,Tesla V100のGPUはTSMCの12nmプロセス技術を採用して製造され,815mm2のダイサイズに210億トランジスタを集積。CUDA Core数は5120基に達するとのことだ。Pascal世代の最上位GPUである「GP100」だとダイサイズが610mm2,CUDA Core数が3584基なので,文句なしにNVIDIA史上最大のプロセッサとなる。
組み合わせるメモリはSamsung Electronicsと共同で開発したという積層タイプ(HBM2)で,帯域幅は900GB/s。また,独自インタフェース「NVLink」は第2世代へと進化し,300GB/sの帯域幅を確保しているという。TDP(Thermal Design Power)は300Wとのことだ。
演算性能はFP64(倍精度浮動小数点演算)が7.5 TFLOPS,FP32(単精度浮動小数点演算)が15 TFLOPS。さらにTesla V100は深層学習のアクセラレーションを行うため4x4のマトリックス演算を行う「New Tensor Core」を持ち,これにより最大120 TFLOPSの演算性能を実現するとのことだ。Huang氏は,このNew Tensor Coreによって,Googleの深層学習フレームワーク「Tensor Flow」は従来比で12倍の速度で処理できると語っていた。
Tesla V100搭載製品としては,既存の深層学習用マシン「DGX-1」をべースに,8基のプロセッサをTesla V100へ入れ替えた「DGX-1 With Tesla V100」と,「パーソナルなスーパーコンピュータ」として訴求され,4基のTesla V100を搭載する「DGX Station」,そして8基のTesla V100を搭載するクラウドサーバー「HGX-1」が発表となった。
DGX-1 With Tesla V100は深層学習において960 Tensor TFLOPSの演算性能を持ち,「サーバー400台分の能力を持つ」(Huang氏)という。
またHuang氏は,PCI Expressカード型のTesla V100,「FHHL」(Full Hight, Half Length)も発表している。「CDカードサイズ」(Huang氏)でパッシブ冷却方式を採用するカード版Tesla V100は,深層学習においてSkylake世代のCPUに対して15〜20倍の性能を持つとのこと。「3000ドルでコンピュータにTesla V100を追加できる」とも氏は語っていたので,カード版の価格はその程度に設定される可能性が高い。
GTC公式Webサイト(英語)
GTC 2017の基調講演Live blog(英語)
- 関連タイトル:
Volta(開発コードネーム)
- この記事のURL: