應(yīng)對(duì)下一代移動(dòng)圖形處理的挑戰(zhàn)
GPU市場(chǎng)增長(zhǎng)與Mali? 技術(shù)的成功
2006年,圖形處理器(GPU)總出貨量約為1.35億,廣泛用于智能手機(jī)、DTV和平板電腦等多種設(shè)備。同年,ARM? 完成對(duì)挪威Falanx公司的收購(gòu),并獲得其移動(dòng)GPU技術(shù),完成對(duì)原有IP技術(shù)的擴(kuò)展。10年后的今天,僅智能手機(jī)的全球出貨量就已達(dá)到15億臺(tái)(據(jù)ARM內(nèi)部數(shù)據(jù)和Gartner數(shù)據(jù)顯示);短短10年時(shí)間,ARM Mali技術(shù)也已成為全球出貨量第一的GPU,2015年總計(jì)出貨量超過(guò)7.5億。
本文將重點(diǎn)討論GPU市場(chǎng)、技術(shù)、應(yīng)用案例,以及GPU爆炸式發(fā)展背后的深層原因。同時(shí),文章還將簡(jiǎn)述ARM Mali GPU及其架構(gòu)在過(guò)去10年的演進(jìn),并介紹搭載全新Bifrost架構(gòu)的Mali-G71。
API與制程節(jié)點(diǎn)開(kāi)發(fā)對(duì)圖形領(lǐng)域而言,2015年振奮人心——全新應(yīng)用程序接口(API)的出現(xiàn)允許開(kāi)發(fā)商將基礎(chǔ)圖形硬件發(fā)揮至技術(shù)允許的最高水平。
同年,Khronos團(tuán)隊(duì)的工作引發(fā)有關(guān)Vulkan的熱烈討論。Vulkan是新一代OpenGL API,為新一代圖形API設(shè)計(jì)量身打造。Vulkan足以滿(mǎn)足全部需求,并徹底終結(jié)了OpenGL ES和OpenGL作為API各自為政的時(shí)代。
Vulkan于2016年2月正式發(fā)布,是首款按照開(kāi)發(fā)商需求設(shè)計(jì)的Khronos API。它由游戲引擎開(kāi)發(fā)商、芯片提供商、IP公司和操作系統(tǒng)供應(yīng)商共同開(kāi)發(fā),以期打造兼顧各相關(guān)方需求的最佳解決方案。Vulkan API應(yīng)運(yùn)而生,采用全新異構(gòu)系統(tǒng),不僅內(nèi)置多線程支持,而且可以最大程度發(fā)揮硬件一致性的優(yōu)勢(shì)。Vulkan屬于底層API,允許開(kāi)發(fā)商自主決定硬件交互方式,并通過(guò)底層接入以找到最佳平衡點(diǎn)。
上述特性對(duì)虛擬現(xiàn)實(shí)(VR)等新興應(yīng)用尤為重要,幫助開(kāi)放商減少延遲,優(yōu)化圖形流水線。
對(duì)聚焦GPU運(yùn)算應(yīng)用的開(kāi)發(fā)商來(lái)說(shuō),OpenCL 2的發(fā)布是一個(gè)重要節(jié)點(diǎn),多項(xiàng)全新理念進(jìn)一步簡(jiǎn)化了高性能GPGPU應(yīng)用的開(kāi)發(fā)流程。虛擬存儲(chǔ)共享概念的提出可以說(shuō)最為關(guān)鍵,允許CPU和GPU之間的虛擬地址共享。與硬件一致性結(jié)合后,細(xì)粒度緩沖器共享成為現(xiàn)實(shí)。該技術(shù)簡(jiǎn)化了實(shí)現(xiàn)CPU和GPU工作負(fù)載共享所需的開(kāi)發(fā)工作,因?yàn)閮烧唛g的數(shù)據(jù)雙向傳輸不再是必要條件。
半導(dǎo)體制造工藝也經(jīng)歷了巨大革新。2014年,臺(tái)積電與三星推出20納米工藝節(jié)點(diǎn),標(biāo)志著平面工藝節(jié)點(diǎn)的10年歷史終于落幕。2015年,三星在Exynos 7420上使用全新14納米FinFet技術(shù),臺(tái)積電緊隨其后,推出16納米FinFet工藝,并搭載于蘋(píng)果A9芯片。2016年,工藝節(jié)點(diǎn)獲得進(jìn)一步完善,成本降低,產(chǎn)量增加。步入2017年, 10納米工藝節(jié)點(diǎn)也不再是夢(mèng)想。
從GPU的角度看,工藝節(jié)點(diǎn)技術(shù)的進(jìn)步對(duì)整個(gè)行業(yè)意義非凡。首先,工藝節(jié)點(diǎn)越先進(jìn),單位區(qū)域(或功耗)的晶體管密度就越大。GPU屬于并行處理器,只要架構(gòu)擴(kuò)展,性能就會(huì)隨之提升。然而,先進(jìn)工藝節(jié)點(diǎn)對(duì)布線的擴(kuò)展效果不如晶體管。恰恰相反,Ergo 工藝制程從28納米優(yōu)化至14納米,SoC設(shè)計(jì)師得以實(shí)現(xiàn)更高的晶體管密度,但卻不如布線的擴(kuò)展。這意味著,如果設(shè)計(jì)10納米GPU時(shí)采用與28納米同樣的方法,設(shè)計(jì)結(jié)果必然會(huì)打折扣,因?yàn)榫w管和布線各有權(quán)衡,不盡相同。設(shè)計(jì)師常常需要妥協(xié),使IP適應(yīng)某個(gè)節(jié)點(diǎn),這種權(quán)衡隨著先進(jìn)工藝節(jié)點(diǎn)數(shù)量的增加變得愈加重要。
深入探討高端移動(dòng)GPU的性能如何繼續(xù)提高之前,我們需要特別指出GPU性能從2011年到2016年提升了20倍這個(gè)有趣的事實(shí)。由于手機(jī)同時(shí)變得更加輕薄,因此該數(shù)字并不能代表技術(shù)進(jìn)步的全景,但現(xiàn)代移動(dòng)設(shè)備開(kāi)發(fā)商對(duì)性能提升的渴求已經(jīng)可見(jiàn)一斑。
移動(dòng)設(shè)備開(kāi)發(fā)商不斷完善現(xiàn)有用例,開(kāi)發(fā)顛覆性的新用例,以保持創(chuàng)新節(jié)奏,并從新一輪的性能升級(jí)中獲益。