作者: 郭自侗 2014-04-14 10:37 [查查吧]:m.uabf.cn
表面上看這兩種方法的吞吐量相同。但是,高級(jí)GPU負(fù)載通常由使用許多不同數(shù)據(jù)寬度的數(shù)據(jù)組成。例如,通常顏色數(shù)據(jù)寬度為4 ( ARGB ),而紋理坐標(biāo)的數(shù)據(jù)寬度通常為2 ( UV),還有許多標(biāo)量實(shí)例( 1個(gè)組件)處理,如典型的光照計(jì)算一樣。
在光照計(jì)算中,如果數(shù)據(jù)處理沒(méi)有填滿(mǎn)整個(gè)矢量寬度時(shí),就會(huì)浪費(fèi)矢量處理器寶貴的計(jì)算資源。在標(biāo)量架構(gòu)中,正執(zhí)行的運(yùn)算采用一種運(yùn)算類(lèi)型,在同一 時(shí)間 運(yùn)行一個(gè)組件,并行處理同一任務(wù)。例如著色處理中完全由標(biāo)量處理組成,在4-wide矢量架構(gòu)中執(zhí)行25%的任務(wù),而在標(biāo)量SIMD架構(gòu)中本應(yīng)執(zhí)行 100%的任務(wù)。
多個(gè)低功耗ALU!
我們?cè)賮?lái)說(shuō)說(shuō)USC并行任務(wù)中的獨(dú)立流水線。共有16個(gè)流水線,每個(gè)流水線內(nèi)部實(shí)際上存在數(shù)個(gè)執(zhí)行任務(wù)的ALU。即2個(gè)FP32 ALU,2個(gè)FP16 ALU,以及1個(gè)專(zhuān)用函數(shù)ALU 。
為什么使用專(zhuān)用FP16 ALU?主要是為了節(jié)省功耗同時(shí)也是為了提高性能。與FP32 ALU相比,簡(jiǎn)化ALU邏輯復(fù)雜度可以較低功耗執(zhí)行FP16指令組,同時(shí)可執(zhí)行更多的運(yùn)算,在每個(gè)時(shí)鐘周期實(shí)現(xiàn)更高的吞吐量。稍后您就會(huì)明白。
在高級(jí)圖像渲染中以較低精度計(jì)算可能需要耗費(fèi)較多時(shí)間,而APIs Rogue力求在所有通用圖形中支持混合精度運(yùn)算,其中包括Direct3D 11,以及更常見(jiàn)的OpenGL ES2和ES3 APIs。在嵌入式圖形運(yùn)算中沒(méi)有構(gòu)建混合精度計(jì)算流水線是個(gè)錯(cuò)誤,原因是執(zhí)行混合精度工作量會(huì)造成功率放大。
性能和功能
各個(gè)ALU的功能并不一樣,我們來(lái)看一下每個(gè)ALU的作用,以便了解其性能:
PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能夠在每個(gè)時(shí)鐘周期執(zhí)行2浮點(diǎn)運(yùn)算。每個(gè)USC即每個(gè)時(shí)鐘周期的64 FLOP峰值。
PowerVR Series6 GPU內(nèi)共有最多8個(gè)統(tǒng)一著色集群( USC )
PowerVR Series6 GPU中的FP16 ALU能夠在能夠在每個(gè)時(shí)鐘周期執(zhí)行最高3浮點(diǎn)運(yùn)算,我們?cè)赟eries6XE和Series6XT 改進(jìn)了FP16 ALU可在每個(gè)時(shí)鐘周期執(zhí)行最高4浮點(diǎn)運(yùn)算。按照不同的產(chǎn)品和系列,每個(gè)USC在每個(gè)時(shí)鐘周期執(zhí)行高達(dá)128浮點(diǎn)運(yùn)算。升級(jí)型Series6XE和 Series6XT更為靈活,執(zhí)行流水線部分運(yùn)算的編譯器更為容易。
PowerVR Series6XT GPU內(nèi)共有最多8個(gè)Unified Shading Clusters( USC )
最后來(lái)說(shuō)一下具有專(zhuān)用功能的ALU,ALU可處理更復(fù)雜的算法和三角運(yùn)算,如正弦、余弦、對(duì)數(shù)、倒數(shù)和親和數(shù)、標(biāo)量運(yùn)算。按照這些運(yùn)算的性質(zhì),設(shè)置了ALU輸出精度和性能。
增強(qiáng)ALU內(nèi)核配置
現(xiàn)在,我已經(jīng)說(shuō)明從構(gòu)建USC塊到利用16個(gè)并行管道執(zhí)行任務(wù)來(lái)說(shuō)明Rogue計(jì)算架構(gòu),各個(gè)管道有較大的專(zhuān)用計(jì)算資源,我們按照競(jìng)爭(zhēng)對(duì)手的方 式來(lái) 說(shuō)明內(nèi)核。每個(gè)USC包括:32 FP32 ALU內(nèi)核,高達(dá)64個(gè)FP16 ALU內(nèi)核、16 個(gè)USC專(zhuān)用函數(shù)ALU內(nèi)核。
按照同樣的方式將Rogue與市場(chǎng)競(jìng)爭(zhēng)產(chǎn)品比對(duì),ALU內(nèi)核這個(gè)術(shù)語(yǔ)很重要,我們希望大家盡可能按這條思路來(lái)解釋內(nèi)核。
最后,請(qǐng)記住,Imagination根據(jù)不同的產(chǎn)品Series6, Series6XT和Series6XE設(shè)置1對(duì)多的USC。以下為兩個(gè)實(shí)例:
PowerVR G6230: 兩個(gè)Series6 USC-64 FP32 ALU內(nèi)核,每個(gè)時(shí)鐘周期執(zhí)行高達(dá)128 FLOP – 64 FP16 ALU 內(nèi)核,每個(gè)時(shí)鐘周期執(zhí)行高達(dá)192 FLOP。也就是按照600MHz的頻率執(zhí)行高達(dá)115.2 FP16 GFLOPS及高達(dá)76.8 FP32 GFLOPS。
PowerVR GX6650: 六個(gè)Series6XT USC-192 FP32 ALU內(nèi)核,每個(gè)時(shí)鐘周期執(zhí)行高達(dá)384 FLOP –384FP16 ALU 內(nèi)核,每個(gè)時(shí)鐘周期執(zhí)行高達(dá)786 FLOP。也就是按照600MHz的頻率執(zhí)行高達(dá)460.8FP16 GFLOPS及高達(dá)230.4 FP32 GFLOPS。
?
圖說(shuō)新聞
深圳多個(gè)旅游景點(diǎn)發(fā)
深圳有哪些好玩又不
深圳周邊哪些地方可
深圳哪里可以玩漂流
深圳龍華區(qū)2021年暑期
2021第二屆龍崗喜劇節(jié)