連載
西川善司の3DGE:最大32コア64スレッド対応の第2世代Ryzen Threadripper,正式発表。進化のポイントはここだ
まずは基本情報をあらためて確認する
8月6日掲載の記事でお伝え済みだが,本稿でもまず大前提として,基本情報を整理しておこう。
今回発表になったのは以下の4製品。上位2モデルは「クリエイターと先端技術開発者向け」という位置づけのWXシリーズ,下位2モデルは「PCマニアとゲーマー向け」という位置づけのXシリーズとして,AMDは対象のユーザーを分けている。
- Ryzen Threadripper 2990WX:
32C64T,定格3.0GHz,最大4.2GHz,L3キャッシュ容量64MB,TDP 250W,1799ドル(税別),北米時間8月13日発売予定 - Ryzen Threadripper 2970WX:
24C48T,定格3.0GHz,最大4.2GHz,L3キャッシュ容量64MB,TDP 250W,1299ドル(税別),10月発売予定 - Ryzen Threadripper 2950X:
16C32T,定格3.5GHz,最大4.4GHz,L3キャッシュ容量32MB,TDP 180W,899ドル(税別),北米時間8月31日発売予定 - Ryzen Threadripper 2920X:
12C24T,定格3.5GHz,最大4.3GHz,L3キャッシュ容量32MB,TDP 180W,649ドル(税別),10月発売予定
第2世代Threadripperは,Pinnacle Ridge世代のRyzen Desktop 2000と同じく,リファイン版の「Zen」アーキテクチャとなる「Zen+」を採用し,GLOBALFOUNDRIESの12nm LP(Leading Performance)プロセス技術を用いて製造される。
Zenマイクロアーキテクチャの14nm LPP(Low Power Plus)から微細化したZen+では,キャッシュやメインメモリに対するアクセス遅延の低減を実現する |
Zen+ではプロセス技術の微細化効果により最大クロックの引き上げと同一クロック動作時の省電力化を実現している |
ZenベースのCPUでは4基のCPUコアを1つの「CPU Complex」(公式略称「CCX」。以下略称表記)として管理し,2基のCCXを1つのシリコンダイへ統合する仕様になっている。Ryzen ThreadripperのCPUパッケージはこのシリコンダイを4基搭載するのだが,2017年モデルとなる第1世代のRyzen Threadripper(以下,第1世代Threadripper)ではそのうち2基しか有効でなかったのに対し,今回の第2世代Threadripperでは最大で4基すべてが有効になるため,搭載するCPUコア数は4(CCX)
第2世代Threadripperの中はこうなっている
AMDは第2世代Threadripperの発表にあたり,「12nm LPプロセス技術を用いて製造されたシリコンダイのうち,上位5%の良品を選別して採用している」という,これまであまり公開されたことのない情報を開示した。選別する理由は,定格で安定した動作を実現できるだけでなく,同じ電気および温度条件においてより高いクロックでの動作を期待できるからだ。
選別品のシリコンダイを4基搭載したものはRyzen Threadripper 2990WX(以下,2990WX)やRyzen Threadripper 2970WX(以下,2970WX)に,2基搭載したものはRyzen Threadripper 2950X(以下,2950X)やRyzen Threadripper 2920X(以下,2920X)になるが,ここで重要なのは,24コア48スレッド対応の2970WXが4基のシリコンダイを搭載する点だろう。
そう,2970WXで「3基のシリコンダイで24コアを実現する」ことはない。CCXのシンメトリカルな配置を重視し,CCXあたり1基のCPUコアを無効化することでシリコンダイあたり6コア12スレッド対応とし,それを4基搭載して24コア48スレッド対応を実現しているのである。
ちなみにXシリーズの場合,シリコンダイ2基がダミーとなる一方,2920Xでシリコンダイあたり6コア12スレッド対応となる。このあたりの仕様は共通だ。
以上を踏まえ,第2世代Threadripperのブロック図を見てみるわけだが,今回はあえて下位モデルとなるXシリーズから先に確認してみたい。
動作する2基のシリコンダイは,ブロック図上で「∞」マークによって表される「Infinity Fabric」(インフィニティファブリック)でつながっている。
Infinity FabricはAMD製のさまざまなプロセッサや周辺I/Oを接続するデータ伝送アーキテクチャの総称で,そのインタフェース機能ブロックのことは「Infinity Fabric On-Package」(以下,IFOP)と言う。Zen世代のCPUだとシリコンダイあたり4基のIFOPを搭載しており,Xシリーズの第2世代Ryzen Threadripper(および第1世代Ryzen Threadripper)の場合,そのうち2基を使って相互接続しているのだ。
1リンクあたりの帯域幅は50GB/sなので,2リンクで100GB/s。上のスライドだとシリコンダイ間の帯域幅が1リンク50GB/sであるように見えるが,Macri氏に確認したところ「スライドの誤りだ」という答えが返ってきたので,「2リンクで100GB/s」で間違いない。
実のところIFOPは「シリコンダイの向かい合う二辺の外周」に2基ずつレイアウトされており,シリコンダイ間の接続にあたっては,互いに隣接するものしか結ぶことができない。そもそもZen世代では,「田」の字状に並べた4基のシリコンダイでMCM(Multi-Chip Module)型プロセッサを実現する前提で物理設計が行われており,だからこその仕様なのだが,どういうことかは後段で解説したいと思う。
というわけでお待ちかね(?),WXシリーズのブロック図である。
4基のシリコンダイがすべて有効なWXシリーズでは,4基あるIFOPのうち3基を使って,“自分”以外のシリコンダイとつながっているのが分かる。Xシリーズのブロック図では2基のIFOPが1つの∞マークにまとまっていたが,WXシリーズにおける∞マークはIFOP 1基を示すため,その帯域幅は50GB/sとなる。スライド中だと25GB/sになっているが,これも同様に誤りである。
いずれにせよIFOPが1リンク分未使用となるわけだが,「IFOPがどのような物理レイアウトになっているか」を分かりやすく示したブロック図がEPYC関連の資料にあったので,以下のとおり流用して補足解説してみたい。
IFOPは,シリコンダイ上において上の図で示したような場所に4基ずつレイアウトされているため,シリコンダイ間の接続を行うにあたっては,4基のシリコンダイすべてが有効なケースにおいても最大3基しか利用できないわけである。
シリコンダイの物理設計を1パターンとして,大量生産することでコストを下げ,それをさまざまに活用するという想定の下で生まれたCPUマイクロアーキテクチャであるがゆえに,Zen世代にはこのようなデザイン面での冗長性があるのだった。
いま示したEPYCのブロック図だとシリコンダイごとに「DDR」と書かれた2chのメモリインタフェース(≒メモリコントローラ)があるのに対し,先ほど示したWXシリーズでは,4基中2基でしかメモリインタフェースが有効になっていなかった。
これは,ほぼ同じCPUマイクロアーキテクチャを採用しつつもデータセンター向けCPUとしてリリースされているEPYCに対して,WXシリーズで意図的に差別化された部分だ。逆に言うと,EPYCではシリコンダイごとに2chのメモリインタフェースを持つ合計8ch仕様が必要だが,Ryzen Threadripperのメモリインタフェースはシリコンダイ2基分の合計4chで十分という判断をAMDは下したということになる。
near memoryというのは,当該シリコンダイ内のメモリインタフェースと直接つながっているメモリモジュールを指している。いわば直結したメモリで,そこへのアクセス遅延は最大64nsで済む。
それに対してfar memoryは,当該シリコンダイ以外のシリコンダイにあるメモリインタフェースとつながったメモリモジュールのことを差す。Infinity Fabric接続の先にあるシリコンダイを通じてメモリアクセスを行うことになるためオーバーヘッドは大きくなり,アクセス遅延は最大105nsと遅くなるのだ。
X399プラットフォームに留まりつつ,ソフトウェア面では明確に第2世代へと移行
8月6日掲載の記事でも触れているとおり,第2世代ThreadripperのCPUパッケージは第1世代と同じ「TR4」で,BIOSさえ対応のものにアップデート済みなら,Socket TR4採用の「X399」マザーボードをそのまま利用できる。
つまり,ハードウェアとしてのプラットフォーム刷新はなかったことになるが,一方でソフトウェア面では第2世代Threadripper向けにアップデートが入った。
ポイントとなるのはZen世代のAMD製CPUを制御するためのフロントエンドソフトウェア「Ryzen Master」だ。
第2世代Threadripperに対応したバージョン1.4以降のRyzen Masterは,ユーザーインターフェースや画面構成に手が入っている。
また,従来からある機能「Legacy Compatibility Mode」「Memory Access Mode」には,いずれも最大32コア64スレッド対応化を果たしたことを受けての拡張が入った。
1つ1つ順番に見ていくことにしよう。
Legacy Compatibility Modeは,古めの人気ゲームでCPUコア数が多すぎると動作不良を起こすタイトルに配慮するための特別なモードだ。従来は2基あるシリコンダイの片方を無効化して8コア16スレッド対応かつ2chメモリインタフェース搭載のシングルダイCPUとして動作させるものだったが,今回はWXシリーズのシリコンダイ4基中3基を無効化させることもできるようになった。
Memory Access Modeは拡張……というか事実上の現状維持なのだが,説明しておこう。従来からRyzen Masterでは,第1世代Ryzenからのメモリアクセスを「Local Mode」(ローカルモード)で行うか「Distributed Mode」(ディストリビューテッドモード)で行うかを指定できた。
Local ModeはNUMA(Non-Unified Memory Access),すなわち,CPUコアの稼動とメモリアクセスを積極的かつ局所的に済ませるように制御するモードだ。言い換えると,当該アプリケーションがnear memoryだけで動作するような制御を介入させる動作モードである。near memoryだけであれば,シリコンダイに統合されたローカルなメモリインタフェースとつながったメモリ(モジュール)へのアクセスだけで済むので,メモリアクセス遅延を積極的に低減できる。従来からAMDは「リアルタイム性の高いゲームアプリケーションなどと相性がよい」としていたりするので,そのことを憶えている人も少なくないだろう。
Distributed ModeはUMA(Unified Memory Access)で,当該アプリケーションが動作しているシリコンダイとは別のシリコンダイにつながったメモリ(モジュール)へのアクセスも許容する動作モードだ。far memoryへのアクセスも容認する制御を介入させるわけである。
このモードはfar memoryのアクセス頻度が増えるのでメモリアクセス遅延が大きくなりがちだが,Local Modeでは2chに制限されるメモリアクセスを,4chへ拡張できるため,メモリバス帯域幅は倍増する。平たく言い換えると,メモリのデータ転送が始まるまでは遅延がある一方,始まってしまえば大量のデータを高速で転送できる。
先ほど「現状維持」と述べたのは実のところ,2基のシリコンダイが動作するXシリーズは,第1世代Threadripperの仕様をそのまま引き継いでいるためである。では何が「拡張」なのかと言えば,4基のシリコンダイが動作するWXシリーズではメモリアクセスモードがLocal Modeに固定となるということだ。4基中2基のシリコンダイではnear memoryが存在しないことになるが,メモリインターフェースを統合する一番近いシリコンダイを通じてメモリアクセスをしないと,far memoryよりもさらに遠いメモリアクセスが発生することになってしまう。それを抑止するためにLocal Modeに固定となっているのである。
下に示したスライドは,「Local ModeとDistributed Modeにおけるデータ転送の実効速度比較」だが,単一のシリコンダイ上で複数のデータコピースレッドを16もしくは8動作させた場合はDistributed Modeの4chアクセスのほうがより高いメモリバス帯域幅を示している。一方,データコピースレッドを8ずつ,もしくは4ずつ異なるシリコンダイ上で動作させた場合は,アクティブなCPUコアに近いnear memoryへのアクセスを活用できるため,Local Modeのほうが高いメモリバス帯域幅を示している。このあたりは第1世代Threadripperから変わっていないという理解でいいだろう。
なお,Xシリーズ搭載時に,
- Game Mode:Legacy Compatibility Mode有効,メモリアクセスはNUMAのLocal Mode
- Creator Mode:Legacy Compatibility Mode無効,メモリアクセスはUMAのDistributed Mode
という2つの動作プロファイルをRyzen Master上から切り換えられる点も第1世代Threadripper時代と同じだ。
そのほか,Ryzen Desktop 2000シリーズ向けに提供されている各種のクロック引き上げ機能は,第2世代Threadripperでもそのまま利用できることを確認できた。
具体的には「Precision Boost 2」や「Extended Frequency Range 2」(以下,XFR2),「Precision Boost Overdrive」(以下,PBO)が利用可能だ。
Precision Boost 2は,CPUコアの負荷状況に応じて,発熱状況に配慮しながら25MHz単位で動作クロックを制御するもの。XFR2は,当該時点における各CPUコアの温度条件に応じ,CPUの温度が低ければ定格のブースト最大クロックを超えて動作クロックを25MHz単位で引き上げる。
いずれもAMDが開発段階,そして動作検証段階で取得したプロセッサコアの動作特性データを基にした制御となり,いずれもメーカー保証の対象内だ。
一方のPBOはAMDがRyzen Master上に用意した「メーカー保証外のオーバークロック動作モード」で,プロセッサ全体への給電量(PPT),そのマザーボードから持続的に供給可能な電流量(TDC),そのマザーボードから供給可能なピーク電流量(EDC)といったパラメータの上限設定を解放してのオーバークロック動作を可能にする。PBOを利用することによってCPUが壊れてしまっても保証は受けられないので,その点は注意してほしい。
PBOはメーカー動作保証対象外のオーバークロック機能。AMDいわく,「少ない設定項目で,成功率の比較的高いオーバークロックが楽しめる」とのことだ |
第2世代Threadripperで利用できるPBOボタンは,「押すだけで上級オーバークロッカー並みのオーバークロックが楽しめる機能」として訴求される |
2990WXではPBOの有効化によってCINEBENCH R15のスコアが13%も上がるというスライド |
XFR2とPBOを活用するには高性能なCPUクーラーの利用が必須というスライド |
少なくとも米ドルでの価格設定は絶妙
第2世代Threadripperは,今回も実にいいポジションを狙った製品だ。とくに,少なくとも米ドル税別での価格設定は絶妙と言える。
一方でそれらをWXシリーズとして別にすることで,16コア32スレッド対応の2950Xと12コア24スレッド対応の2920Xを,単なる下位モデルではなく,第1世代Threadripperの正統な後継として位置づけることもできており,このあたりは見事だ。
前述したとおり,チップセットは第1世代Threadripperから引き続きX399が組み合わせられるが,WXシリーズではTDP(Thermal Design Power,熱設計消費電力)が250Wと,第1世代Threadripperおよび第2世代Threadripper Xシリーズの180Wを大きく上回るため,一部のマザーボードメーカーはWXシリーズに合わせてVRM周りや熱対策を強化した新しいX399マザーボードを用意しているようだ。AMDがそう言っているわけではないが,WXシリーズを使おうと考えているなら,そのあたりに気を付けるといいかもしれない。
それと,CPUクーラーだが,PBOを使わず,メーカー保証内で利用していくという場合でも,最低限,簡易液冷クーラーは選びたいところだ。というのも,XFR2のクロック引き上げマージンは冷却状況に応じてドラスティックに変わってくるからである。同時にVRM周辺をファンで冷却できるとより効果的だろう。
なお,4Gamerでは,AMDが「PCマニアとゲーマー向け」と位置づける16コア32スレッド対応モデルである2950Xを入手し,さっそくテストを行っている。第2世代Threadripperのゲーマー向けモデルがどれだけの実力を持っているのか気になる場合は,ぜひチェックしてほしい。
「Ryzen Threadripper 2950X」レビュー。第2世代の16コア32スレッド対応CPUは,買わない理由が見当たらない!?
「Ryzen Threadripper 2950X」到着。第2世代の16コア32スレッド対応CPUは今回も特殊な製品ボックス入りだ
AMD,第2世代Ryzen Threadripperのラインナップと価格を発表し,実動デモも披露
AMDのRyzen Threadripper製品情報ページ
- 関連タイトル:
Ryzen(Zen,Zen+)
- この記事のURL: