ニュース
AMDの第2世代A-Series APU「Trinity」,そのアーキテクチャを分析する
その製品ラインナップとスペックは表1のとおり。発表時点ではノートPC向けのみが用意されており,デスクトップPC市場向け製品の投入は,2012年第2四半期末以降に始まるとされている。
より省電力&高クロックを指向したPiledriver
Bulldozerからの機能拡張も
AMDはこのPiledriverモジュールを開発するにあたって,分岐予測の精度やスケジューリングの効率を向上させるなど,Bulldozerの弱点と指摘されてきたIPC(Instruction Per Cycle:1クロックサイクルで実行できる命令数)の向上を図り,より高クロックで動作するようにも改良してきたとのことだ。
Turbo CORE 3.0では,CPUとGPUのクロックや消費電力,温度をモニタリングし,負荷状況に応じて“動作クロックの限界点”を融通し合えるようになった。従来はCPUの動作クロックを引き上げられるだけだったのが,Turbo CORE 3.0では,GPUコアの引き上げも行えるようになったのがトピックだ。
CPUコアに負荷がかかっているときにはGPUコアのクロックを下げてCPUコアのクロックを大きく引き上げ,逆のシチュエーションではGPUコアのクロックを引き上げられるようになったと説明したほうが分かりやすいかもしれない。
いずれにせよ,これによりノートPC向けAPUでは,Turbo COREの上限となるクロックを,CPUコア・GPUコアとも,定格よりかなり高いところへ設定することが可能になっている。
ところで,AMD FXプロセッサが発表されたときに紹介しているとおり,AMDは,Bulldozerアーキテクチャにおいて,2基のx86整数演算ユニットと1基の浮動小数点演算ユニットを1つのBulldozerモジュール上に統合した。より小さなダイサイズで,マルチスレッド処理における効率的なデータリソースの共有ができるようにしていたわけだ。
また,拡張命令セットとして3オペランドで単精度浮動小数点積和演算をこなす「FMA3」(Fused Multiply Add 3)と,単精度(32bit)浮動小数点を半精度(16bit)の浮動小数点に変換する「F16C」を追加でサポートし,浮動小数点演算処理の効率を引き上げてきているのもポイントといえるだろう。
表2は,TrinityとLlanoとでCPUコア周りのスペックを比較したものになる。
Northern Islands世代のGPUコアをVLIW4ベースで実装
ビデオ関連の固定機能も搭載
冒頭でも紹介したとおり,GPUブロックでは,VLIW4エンジンを採用してきたのが大きな特徴となる。
ATI Radeon HD 2000〜5000シリーズで,AMDは,4基の32bit ALU(Arithmetic and Logical Unit。算術演算や論理演算を行うスカラユニットのこと)と,倍精度演算や超越関数に対応する「Special Function Unit」(または「T-Unit」「Transcendental-function Unit」,以下,SFU)を“4+1”の合計5基で構成するVLIW5エンジンを採用し,依存関係のない複数の命令を1命令としてまとめて実行してきた。
これに対し,Radeon HD 6900シリーズで採用されたVLIW4エンジンでは,SFUを省いた4 ALU構成へと改編し,倍精度演算や超越関数演算は4基のALUを組み合わせて処理するようにしている。もちろん,SFUを省くことで性能面でのペナルティはあるのだが,一般的なグラフィックス描画処理でSFUを用いるような複雑な演算が行われるケースは少ないため,シンプルなALU構成にすることで得られる命令発行やスケジューリング負荷低減というメリットのほうが大きい。それゆえ,より効率的な並列演算処理が行えるようになるというわけだ。
ATI Radeon HD 2000シリーズ以降のRadeonでは,8基の演算ユニットが1セットになって「SIMD Engine」を構成する仕様になっているので,VLIW5だと5×8で80基のところ,VLIW4では4×8で64基でSIMD Engineを構成できるようになる。Trinityでは,このSIMD Engineを最大6基搭載可能なので,64×6=384基のシェーダプロセッサを搭載できる計算だ。
しかし,VLIW4アーキテクチャへの移行によって,SIMD EngineはLlanoの5基(80×5)に対してTrinityでは前述のとおり6基となり,さらに高クロック化も容易になったことで,単精度浮動小数点数の演算性能は,Llanoの最大480 GFLOPSに対してTrinityでは同614.4 GFLOPSと,1.28倍になっている。
また,VLIW4の採用によってSIMD Engineの数が増えたことにより,SIMD Engineあたり4基が組み合わせられるテクスチャユニットの数が必然的に増えている点も注目しておきたいところだ。
グラフィックス関連では,4基のディスプレイコントローラが統合され,標準で3画面出力に対応するほか,DisplayPort 1.2による数珠つなぎを行った場合は最大4画面出力が可能になる点や,VLIW5アーキテクチャを採用したRadeon HD 7000&6000シリーズの下位モデルとの間でマルチGPU構成「AMD Dual Graphics」を取れる点が特徴となっている。
ビデオのデコードとエンコードを固定機能として処理させるというのは,決して高くないCPU性能をカバーする存在として重要なポイントといえそうである。
表3は,そんなTrinityのGPUおよびビデオ周りをLlanoのそれと比較したものになる。
統合型ノースブリッジにも手が入ったTrinity
メモリアクセス周りを大幅に改善
CPUコアやGPUコアだけでなく,Trinityでは統合されるノースブリッジ機能にも手が入った。CPUコアとGPUコアとが,より効率的にメモリアクセスできるよう改良され,名称も「Unified North Bridge」(以下,UNB)に変わっている。
AMDは当初,TrinityでデュアルチャネルDDR3-2133のサポートを検討していたが,最終的にはデスクトップPC向けでDDR3-1866,ノートPC向けでDDR3-1600対応と,Llanoと同じ仕様で落ち着いた。つまり,メインメモリのバス帯域幅は最大29.8GB/sと変わらないわけで,CPUコアやGPUコアが強化されたことを考えるとやや心許ない。
そこでAMDはTrinityでノースブリッジをUNBへと切り替え,グラフィックスコア側のメモリコントローラがシステムメモリへアクセスするときにCPU側からのメモリアクセスとの調停を行えるようにしてきた。Llanoだと,CPUコアとGPUコアがシステムメモリの帯域を分割して共有していたのだが,UNBの採用により,TrinityではGPUコアがDDR3メモリのフル帯域幅を利用できるようになっているという。
また,Trinityは,AMDが提唱する「Heterogeneous System Architecture」(従来「Fusion System Architecture」と呼ばれていたもの)に対応した初のAPUになり,CPUコアとGPUコアが仮想メモリ空間を共有し,よりシームレスなデータ共有を実現するのも特徴だ。
Trinityでは,GPUコアとUNBとを結ぶ128bit幅の「Fusion Control Link」経由で,GPUコアがCPUコアのコヒーレントメモリ領域にアクセスしたり,逆にCPUがGPUのフレームバッファ領域にアクセスしたりすることも可能になる。これにより,APUに統合されたGPUの並列処理性能をアプリケーションが利用するのを容易にしているのである。
従来製品比で大幅な低消費電力化を実現
17Wと25WのモバイルTrinityで「Ultrathin」を立ち上げ
Trinityにおいては,もう1つ,省電力性の向上も特徴とされている。
AMDはPiledriverで,リーク電流の低減を図るとともに,よりきめ細やかな電圧制御を行うことで,APU全体のTDP(Thermal Design Power,熱設計消費電力)を大幅に引き下げることを可能にしたという。
統合するUNBに搭載された電力制御機能により,Windowsのアイドル時にはメインメモリの動作クロックを動的に切り替えたり,グラフィックスメモリの利用をシングルチャネルに限定したりすることでも省電力化を図る。
さらに,ノートPC向けTrinityでは,タブレット端末やスマートフォンなどで利用されている1.25V動作のLow Power DDR3メモリも利用可能だ。これを組み合わせれば,ノートPCのさらなる省電力化も狙えるわけである。
AMDは,このTDP 17W版APUと,低消費電力版におけるもう1つの選択肢となるTDP 25W版Trinityによって薄型ノートPCプラットフォーム「Ultrathin」を立ち上げ,IntelのUltrabookに対抗したい考えだ。
6月以降に市場投入される
デスクトップPC向けAPUの性能データが明らかに
冒頭で紹介したとおり,AMDはTrinityの第1弾として,ノートPC向けのAPU計5モデルを発表しているが,それに合わせて,性能データも公開している。そのなかには,6月以降の市場投入が計画されているデスクトップPC向けモデルのゲーム性能に関するデータも含まれていたので,以下に掲載しておこう(※いずれもクリックで拡大表示する)。
Trinity投入後のノートPC向けAPUポジショニングマップ |
Ultrathinプラットフォーム向けには,Visionのプレミアムロゴが用意される |
通常電圧版Trinityの3DMarkベンチマークスコアをまとめたスライド。A8-4500MでCore i7-2720QM+Radeon HD 7550Mを上回る |
A10-4600MとCore i5-2520Mとで画質や3D性能,演算性能,アプリケーション性能を比較したスライド |
AMDの新世代APU「Trinity」性能検証。3Dゲームベンチマークと基礎テストでその実力を明らかにする
AMDのノートPC向けAPU製品情報ページ(英語)
- 関連タイトル:
AMD A-Series(Trinity,Richland)
- この記事のURL:
(C)2012 Advanced Micro Devices, Inc.