ニュース
NVIDIA,「Kepler」ことGeForce 600ファミリーを発表。アーキテクチャの要点をまとめてチェック
Kepler第1世代のフラグシップGPUコア,GK104(のダイイメージ) |
「The fastest, most efficient GPU ever built」(史上最も高速で電力効率のいいGPU)と,NVIDIAはGTX 680を位置づけている |
発表時点のラインナップは,デスクトップPC市場向けのシングルGPUフラグシップモデル「GeForce GTX 680」(以下,GTX 680)と,ノートPC向けの「GeForce GTX 660M」「GeForce GT 650M」「GeForce GT 640M」の計4製品。デスクトップPC向けモデルは「GK104」,ノートPC向けモデルは「GK107」というコードネームで開発されてきたGPUコアをそれぞれ採用する。
NVIDIAは,このKeplerアーキテクチャを,「Tesla(=GT100)から始まるCUDAにおける大きな転換点」と位置づけている。正確を期すと,CUDA(Compute Unified Device Architecture)が提唱されたのはG80コアの時代だが,ともあれ今回のKeplerは,NVIDIAにとって,下記3要素を目指したものという位置づけになっている。
- 消費電力あたりの性能向上
- CUDA Core利用効率の向上
- 持続的性能の向上
今回は,北米時間3月8日に米カリフォルニア州サンフランシスコ市で開催された報道関係者向け事前説明会の内容を基に,GeForce 600ファミリーの特徴をまとめてみたい。
SMがSMXへと進化したKeplerアーキテクチャ
SMあたりのCUDA Core数が大幅増
さて,いきなり結論めいた話から始めると,Keplerアーキテクチャにおける最大の特徴は,NVIDIA製GPUの中核を成す「Streaming Multiprocessor」(ストリーミングマルチプロセッサ,以下 SM)を大幅に見直し,SMを構成するCUDA Coreの数を増やした点にある(表1)。
GeForce GTX 680の基本スペック |
そして,GTX 680はこのSMXを8基搭載する。つまり,CUDA Core数は192×8で1536基だ。Fermi世代の最上位モデルたるGTX 580は32 CUDA Core×16 SMで512基だったため,GTX 580比でCUDA Core数は3倍になったこととなる。
※「Warp」はNVIDIA製GPUにおける演算実行単位。32スレッド(≒32個のデータ)が1 Warpだ。Warp Schedulerが実行スケジューリングを行い,Dispatch Unitは,そのスケジュールに従ってCUDA CoreやLD/ST(LoaD/STore Unit,ロード/ストアユニット),SFU(Special Function Unit,超越関数ユニット)を起用して,Warp単位で実行を仕掛けていくイメージになる(関連記事)。
各GPCが,8基のROPユニットで一組となったROPパーティションや,L2キャッシュ,メモリインタフェースとクロスバー接続される構造はFermiアーキテクチャと同じだ。
KeplerアーキテクチャのGPUで採用される製造プロセスはTSMCの28nm。GK104コアのGTX 680におけるトランジスタ数は35.4億で,これはGF110コアのGTX 580における同30億よりも約16.7%多いが,ダイサイズはGF114コアのGTX 560 Tiにおける358mm2比で82%の294mm2に留まっており,ここもGTX 680の大きな特徴と述べることができるだろう。
「GTX 680は,これまで250W超えが当たり前だったハイエンドGPUの常識を打ち破り,TDP(Thermal Design Power,熱設計消費電力)195Wという新しいエンスージアストクラス(≒ハイエンドGPU市場)を作り出す存在だ」(Henry氏)。
GTX 680とGTX 580を消費電力あたりの性能で比較したグラフ。純粋な3D性能で比較したグラフではないので,その点は注意が必要だ |
GTX 680のリファレンスTDPは195Wで,補助電源コネクタ6ピン×2で動作する。195Wという,新しいハイエンド性能を実現したとHenry氏 |
「命令の依存関係を判断したり,スレッドのスケジューリングや管理を行ったりと,コントロールロジックを大幅に簡素化したことで,より多くのCUDA Coreを搭載できるようにした」(Henry氏)
「Keplerでは,SMX制御の多くをソフトウェア制御にすることで,トランジスタ数を抑えることを可能にしつつ,より複雑かつ効率的なスレッド管理を可能にした」(Alben氏)
つまり,Fermi世代のSMではハードウェアコントローラを搭載してスケジューリング制御や管理を行っていたところ,Kepler世代ではその処理をCPUに任せることで,より多くのCUDA Coreを効率よく動作させられるようにした,というわけなのだ。
KeplerではCUDA Coreもほかの回路と同じクロックで動作するようシングルクロック化を図った。これにより,回路規模を1,8倍に増やしながら消費電力は引き下げられたとされる |
命令発行のスケジューリングや依存性のチェックにCPUを利用することで,より効率的かつ複雑なCUDA Coreの制御コントロールが可能になったというスライド |
もちろん,「CUDA Core数が3倍なのにメモリバス帯域幅は変わらず」である以上,メモリアクセスがボトルネックとなる可能性は否定できない。Alben氏は「Keplerでは,シングルクロック化によって周辺回路の動作クロックが上がっているうえ,L2キャッシュやテクスチャキャッシュなどとのインタフェース帯域幅も従来の倍となっているため,高負荷時の性能が低下しにくい」と述べているが,この点は確認する必要があるだろう。
持続的性能を高める
「GPU Boost」
Keplerアーキテクチャでは,GPUの性能を引き出す工夫も盛り込まれている。それがGTX 680で採用される「GPU Boost」だ。
ちなみに1058MHzというBoost Clockは,「平均的なPC環境における平均的なGPU Boostクロック」という位置づけになる。シリコンとしてはBoost Clockまでの動作が保証されるものの,実際には,動作条件やGPU温度などの要因次第で,1058MHzを上回る,もしくは下回るクロックで動作することもある,というわけだ。
NVIDIAは,GPU BoostのPower Targetや,Base Clock&Boost Clockのオフセット値を変更できる開発キットを各グラフィックスカードベンダーへ提供しているため,ユーザーは,自己責任を覚悟すれば,EVGA製の「Precision X」やMSI製の「Afterburner」などといったオーバークロックツールを利用することにより,GPU Boostの挙動をカスタマイズすることも可能だ。
ここで1つ注意したいのは,GTX 680で最新世代の3Dゲームタイトルをプレイする場合,常に高めの消費電力で動作するようになるということ。このあたりは別途掲載しているレビュー記事を参照してもらえればと思うが,公称最大消費電力が250Wの「Radeon HD 7970」と比べて,195Wという“数字”の割に,GTX 680の消費電力は下がっていない。
TDP 195Wという数字はあくまでも目安であり,従来的なグラフィックスカードの概念では捉えられないほどのアーキテクチゃ刷新が入っていることを理解しておくべきだろう。
さらなる描画品質向上へ
新しいAA技術などを実装
関連記事)。
ただし前述のとおり,GTX 680の性能は「消費電力あたりで比較したときGTX 580の2倍」である。GTX 580と比べて消費電力が抑えられているため,実性能で2倍という違いは望めず,実際,NVIDIAでテクニカルマーケティングを統括するNick Stam(ニック・スタム)氏は「純然たる3D性能のみの比較だと,GTX 680はGTX 580と比べて1.3倍前後になる」と明らかにしている。
では,どのようにして「GTX 580×3がKepler×1で!」を実現しているのか。そのカギを握るのがアンチエイリアシング技術の進化だ。
この点についてHenry氏は,「CUDA Coreを利用してアンチエイリアシングを後処理する『FXAA』(Fast approXimate Anti-Aliasing)をサポートすることで,従来のMSAA(Multi Sampled Anti-Aliasing)と同等の高品質描画を,より低負荷で実現できるようになったことが大きい」と述べる。
NVIDIAが開発したFXAAは,レンダリング中にアンチエイリアシング処理を施すMSAAとは異なり,GPUコアを使ってレンダリング後のデータからエッジを検出して補正するため,GPUへの負荷が低く済むメリットがある。すでにUnreal Engine 3や「Battlefield 3」などでサポートされているが,NVIDIAはGTX 680の投入に合わせてFXAAをドライバレベルで適用できるようにすることで,すべてのタイトルに対してFXAAを利用可能にする意向だ。
氏によれば,すでに多くのデベロッパがTXAAに対応したタイトルの開発を始めているとのこと。また,時期や詳細は未公開ながら,Fermi世代以前のGPUでもTXAAはサポートされる予定だという。
また,描画周りでは,動的にVsyncのオン/オフを切り替える「Adaptive VSync」がGTX 680でサポートされることも述べておきたい。
Adaptive VSyncは,有効化しておくと,画面表示が引っかかった状態になりそうなほどフレームレートが低下した場合,Vsyncを一時的にオフとし,なるべく滑らかに描画しようと試みるというもの。正直,ゲーム用途での使い道は限られそうだが,場合によっては効果があるかもしれない。
標準で4画面対応し,1枚で3画面立体視が可能に
ビデオエンコードエンジンも一新
リファレンスデザインで用意される出力インタフェースは,Dual-Link DVI-D×1,Dual-Link DVI-I×1,DisplayPort 1.2×1,HDMI 1.4a×1。DVIとDisplayPortを使うと3画面立体視「3D Vision Surround」を利用可能だ(※HDMI出力した“4画面め”に別途デスクトップを表示することは可能)。従来,3D Vision Surroundの利用にはSLI構成が必須だったので,ハードルが大きく下がることになる。
また,HDMI端子が「Fast HDMI」(HDMI 1.4a 3GHz)に対応し,DiplayPortともども4Kディスプレイ表示(3820×2160ドット/60Hz)が行えるのも特徴といえるだろう。
また,3画面出力時にWindowsタスクバーを中央のディスプレイへ表示できるようしたり,マルチディスプレイ出力非対応のゲームをプレイするときにはセカンダリ以降のディスプレイに向けた出力をカットして3D性能を1枚のディスプレイのみで最大限発揮できるようにしたりする拡張も行われるとのことだ。
3画面表示時にWindowsのタスクバーを中央に表示させるためのデスクトップ管理ソフトが提供される |
ベゼルコレクションの有効/無効をホットキーで制御できるようになり,必要に応じて切り替え可能に |
マルチディスプレイ非対応のタイトルでは中央の画面だけ表示させることで最大性能を発揮できるようにする |
「NVENC」と呼ばれる新世代ビデオエンコードエンジンは,「Tegra 3に統合されたエンコードエンジンをベースにしており,1080pのエンコードを4〜8倍速で実現できる。また,消費電力も数Wに抑えられるので,CPUを利用したエンコードよりも省電力になる」(Alben氏)とのこと。エンコード品質自体もGeForce 500ファミリーより向上しているという。
フルスペックで2 SMX仕様となるGK107
GPU Boostは無効に
冒頭でも紹介したとおり,GeForce 600Mシリーズでは,GK107コアを採用した製品が複数ラインナップされる。具体的には表2,3のとおりだが,GK107ではフルスペックでSMXが2基(=384 CUDA Core)となり,メモリインタフェースは128bit幅。GTX 680でキモとなるGPU Boostは無効になっている。
なお,NVIDIAはGK107がTSMCの28nmプロセスを採用していることは明らかにしているが,そのトランジスタ数やダイサイズは明らかにしていない。また,GeForce GTX 660MとGeForce GT 650M&640M以外では,Fermiベースのプロセスシュリンク版やリネーム版がGeForce 600MシリーズのGPUとして用意されるので,その点は注意が必要だ。
Rene Haas氏(General Manager, GeForce Notebook, NVIDIA) |
Keplerアーキテクチャは,Ultrabookにも外付けGPUによる高品位かつ高性能なグラフィックス機能をもたらすとされる |
GPU Boostもサポートされないことで性能面が心配な読者もいると思うが,CPU利用率が低く,システム全体のTDPに余裕がある場合は,その分をGPUのTDPに割り当てることで高性能化を図る機能などが(ノートPCメーカーの選択次第で)サポート可能になるという。
ビッグチップではないGK104
Keplerアーキの詳細が判明するのは5月か
ついに登場したNVIDIAの新世代GPUアーキテクチャだが,そのデスクトップPC向け第一弾となるGK104は,そのコードネームやトランジスタ数,ダイサイズからも分かるとおり,GeForce 8800 GTX以来の伝統となるフラグシップ・ビッグチップ路線を踏襲していない。また,Warpのスレッド数などにも変更は加えられなかった。
グラフィックスカードベンダー関係者によれば「28nmプロセスの歩留まりや1.5GHz動作するGDDR5メモリの価格がコストを引き上げている」そうで,チップサイズの割にGTX 680カードはかなり高価になるようだが,それでも6万円弱というのはプレミアム(=価格の上乗せ)感が強い。
もっとも,GTX 680の供給量は「潤沢とは言わないまでも,想定していたよりは多い」(前述のグラフィックスカードベンダー関係者)とのことなので,競争による価格の押し下げ圧力が早期に生じる可能性はある。どのタイミングで“大本営発表”の499ドル近くに落ち着くか気になるところだ。
気になる性能は,別途掲載しているレビュー記事をチェックしてもらえればと思う。
4GamerのGeForce GTX 680レビュー記事
GeForce公式情報サイトGeForce.com(英語)
NVIDIAのGeForce製品情報ページ
GTC公式Webサイト(英語)
- 関連タイトル:
GeForce GTX 600
- 関連タイトル:
GeForce 600M
- この記事のURL:
キーワード
(C)Copyright (C)2012 NVIDIA Corporation