イベント
ARM,新世代GPUコア「Mali-T700」を発表。シェーダコア倍増のハイエンド市場向けと,Androidに特化したエントリー市場向けの2本立て
そこでは,同社の最新技術や製品ロードマップについての情報が公開されるのだが,初日となる現地時間29日には,GPU IPコア「Mali」の新世代モデルとなる「Mali-T700」シリーズが発表されたので,本稿ではその概要をお伝えしたい。
ハイエンド市場向けの「Mali-T760」と
メインストリーム市場向けの「Mali-T720」が登場
まず基本的な話をしておくと,Maliとは,ARMアーキテクチャのSoC(System-on-a-Chip)向けとなる,ARM製のGPU IPコア(以下,GPUコア)である。
半導体業界では,完成品のチップではなく回路設計やマスクパターンを提供することを,「IPビジネス」※1と呼ぶ。単体で使われるPC用のGPUとは異なり,MaliシリーズはSoCを開発するプロセッサメーカーにIPとして提供されるのだ。プロセッサメーカー側は,これをARMアーキテクチャのCPUと組み合わせて,SoCの中に統合する形で利用することになる。
※1 IPとは「Intellectual Property」の略。一般的には「知的財産権」とも訳されるが,ここでは「プロセッサの設計図」という意味で使っている。
こうしたGPUのIPでは,英Imagination TechnologiesのPowerVR Graphicsシリーズが名高く,大きなシェアを持っているのが現状だ。MaliシリーズはPowerVRよりも後から登場したこともあり,シェアの面では後塵を拝している。ちなみに,NVIDIAは「Ultra Low Power GeForce」(ULP GeForce),Qualcommは「Adreno」といった具合に自前のGPUコアを持っているので,MaliやPowerVR Graphicsを使うことはない。
話を戻そう。現行世代の「Mali-T600」(以下,T600)シリーズは,ARM初の統合型シェーダアーキテクチャ「Midgard」(ミッドガルド)を採用したもので,最初のGPU IPコア「Mali-T604」が発表されたのは,2010年のことだった。今回発表されたMali-T700シリーズは,同じMidgardアーキテクチャをベースに,性能面での強化を図ったものだ。
ラインナップは,ハイエンド市場向けの「Mali-T760」と,エントリー市場向けとなる「Mali-T720」の2種類である。
Mali-T760
まずはMali-T760(以下,T760)から説明していこう。T760は,ARMv7世代の「Cortex-A7・A8・A9・A12・A15」や,ARMv8世代の「Cortex-A50」シリーズと組み合わせることが想定されたGPUコアである。対応APIはOpenGL ES 3.0やDirectX 11.1,OpenCL 1.1,RenderScriptなどだ。
先述したとおり,T760はアーキテクチャこそT600シリーズと同じMidgardだが,搭載する統合型シェーダコアの数を最大16基に増やしてきたのが大きな特徴となる。T600シリーズのハイエンドGPUコア「Mali-T678」だと最大8基だったので,T760では倍増したわけだ。
T760では,8基の統合型シェーダコアが512KBのL2キャッシュを共有する構造になっているため,L2キャッシュ容量は最大で512KB×2になる。L2キャッシュが複数ある場合,その内容は自動的に一貫性が保たれるようになっているという。
ARMはT600シリーズの具体的な性能を公開していなかったが,T700シリーズでは,これらを数字で公開する方針に転換したようだ。統合型シェーダコア16基で動作クロック600MHzの場合,ピクセルフィルレートは9.6GPixels/sで,ポリゴン描画のスループットは1066.6MTriangles/s,GPU演算時の浮動小数点演算性能は,326.4 GFLOPSに達するという。
これがどのくらいの性能になるのかというと,おおよそ4年ほど前のノートPC向けGPU,たとえば,GeForce 100Mシリーズ程度になるようだ。
ARMはそのほか,エネルギー効率を高めた設計により,Mali-T604と比べて4倍以上の電力効率を達成したともアピールしている。
さて,T760に導入された機能の中でも大きくフィーチャーされているのが,ハードウェアによるフレームバッファ圧縮技術「ARM Frame Buffer Compression」(以下,AFBC)だ。これは統合型シェーダコアとMemory Management Unit(MMU,メモリ管理ユニット)の間にある,「Advanced Tiling Unit」という部分に実装されているという。
Maliシリーズは,表示画面を分割して描画するタイリング方式を採用していており,分割したタイルから描画の必要があるタイルだけをGPU内部に取り込んで,処理を行う構造をしている。要は,必要な部分だけ処理することで,メモリアクセスを可能な限り減らして負荷を下げようとしているわけだ。
しかし,スマートフォンやタブレットでは,表示解像度が年々上がり続けており,いきおい,フレームバッファへのアクセス頻度も高くなってきたため,ここで生じる負荷を低減する必要が出てきた。そこで登場するのがAFBCである。
AFBCは,メインメモリ上にあるフレームバッファへデータを転送するときに,GPU内部やディスプレイコントローラ側にある専用ハードウェアで圧縮/伸張を行うことで,メモリやバスにかかる負荷を低減する。転送されるデータが圧縮によって小さくなるため,短時間で転送が終了するという理屈だ。
また,ソフトウェアによる圧縮も可能で,CPU側からテクスチャデータをフレームバッファやGPUへ転送する場合に圧縮が行えるとされている。
もう1つ,特徴的な新機能に挙げられているのが「Smart Composition」である。
OSやアプリによる2Dグラフィックスの表示は,「今ある画像の上に,文字や図形を重ね描きしていく」方法がとられている。この処理では,重ね描きの前に,背景となる現在の画像――GPUはこれをテクスチャデータとして扱う――フレームバッファから読み込む必要がある。
Smart Compositionはハードウェアによって,この処理に必要な部分のフレームバッファだけをまとめて読み出し,描き換えられた部分だけを,またフレームバッファに書き戻す。これにより,従来よりもフレームバッファへのアクセスを抑制できるというわけだ。
ARMによると,Smart CompositionをAndroidのUI表示に利用したところ,テクスチャデータの読み出し量を半分まで減らすことができたという。
そのほかにもT760では,「HSA」(Heterogeneous System Architecture)へ対応するため,GPU内のメモリ管理ユニットに仮想アドレスを扱う機能が導入されているとのことだ。HSAに関する説明は長くなるので,4月30日の記事や8月27日の記事を参照してほしい。
最後に製造についての話にも触れておこう。T760では当初,TSMCの28nmプロセス「28HPM」(28nm High-Performance Mobile)と,次世代の16nmプロセス「16FF」(16nm FinFET)に対応したPOP IP(Processor Optimization Pack IP)が提供される予定だ。これをCortex-AシリーズのCPUコアと組み合わせることで,短時間でSoCを製造できるようになるとARMは述べている。
Mali-T720
もう1つの新GPUであるMali-T720(以下,T720)は,ARMが「Mainstream」(メインストリーム)と呼ぶエントリー市場向けGPUコア,「Mali-T400」(以下,T400)シリーズの後継となるモデルだ。T720は「エントリレベルのAndroid端末に最適化したGPUコア」とのことで,ベースとなっているのは,Samsung Electronics製のファブレット「GALAXY Note 3」に採用されたMaliとされている。なお,特定のOSをはっきりとターゲットにしたGPUは,Maliシリーズとしては初めてのことだという。
Androidに特化することの何が利点になるのか。簡単にいえば,DirectXに関する機能を省略でき,その分だけ設計に要する時間や製造コストを削減できることになる。対応APIもそれを反映しており,名前が挙げられているのは,OpenGL ES 3.0とOpen CL,RenderScriptだけだ。
こうした最適化により,T720はベースとなった「Mali-T62x」シリーズと比べて,ダイサイズは30%の小型化を実現し,動作時の消費電力は最大15%削減できたとという。
T720の統合型シェーダコア数は最大8基。シェーダコア4基ごとに容量128KBのL2キャッシュとメモリ管理ユニットを備える構造になっているので,シェーダコア8基の構成なら,並行して2つのデータストリームにアクセスできることになる。T760だと,1基のメモリ管理ユニットですべてのシェーダコアを担当するため,それとは異なる構造ということになるわけだが,それは「T720ではHSA対応を考慮していない」ということかもしれない。
性能面の数字も公開されている。統合型シェーダコア8基で動作クロック600MHzのときにピクセルフィルレートは4.8GPixels/sで,ポリゴン描画のスループットは533.2MTriangles/s,浮動小数点演算性能は81.6 GFLOPSとされている。T760と比較した場合,ピクセルフィルレートとポリゴンのスループットが半分なのは,統合型シェーダコア数が半分だからと考えれば辻褄が合う。しかし,浮動小数点演算性能が4分の1しかない理由は,今のところよく分からない。
ちなみに製造面だが,TSMCの28HPMに対応したPOP IPが提供される予定と予告されている点を付記しておきたい。
なお,T760やT720を採用したSoCがいつ頃登場するかは,明言されなかった。もっともSamsung ElectronicsやMediaTek,Rockchip Electronicsの3社が,T700シリーズのプレスリリースにて歓迎のコメントを寄せている以上,この3社が採用するのは確実だろう。
Mali-T760の情報ページ(英語)
Mali-T720の情報ページ(英語)
- 関連タイトル:
Mali,Immortalis
- この記事のURL: