others

ARM Cortex-A35架構分析,擁有超低功耗與精簡體積的新星

今天凌晨ARM在自家的技術大會中,發布了超低功耗的處理器架構Cortex-A35(代號水星)。廠商可以根據性能和功耗需求,對它的架構進行再設計,將其用在不同的領域。

Cortex-A系列分為高性能、低功耗和超低功耗3類:

  • 高性能系列的代表當然是ARM的大核架構Cortex A57和A72(還有在慢慢退市的A15和A17);
  • 低功耗系列的代表是高效能比的A53,根據需求,它可以以多核,或者big.LITTLE大小核的形式工作;
  • 而超低功耗系列,在A5和A7之後,現在新增了A35。

雖然看起來有點不直覺,但A35和A53不是一個系列,A35是A7/A5的繼任者(ARM的產品數字增長得真快……)。

ARM Cortex-A35架構分析,擁有超低功耗與精簡體積的新星

在Exynos 5433測試中,我們發現作為升級版A7的A53,照樣維持不了A7的功耗水平,它更像是把A7的效能曲線延長的產品,就是說A53的性能功耗比並沒有多少提升。但因為A53普遍更高時脈,所以它在性能端可以走得更遠。而A35這次主推能耗比,其實是在給當年吹過能耗比的A53打臉。

不過從戰略意義上說,A35帶來的最重要改變,是讓Cortex-A系列上中下三路產品,都用上了64位的ARMv8架構。在A5/A7等老架構退休後,它就可以完成「全家64位」的宏願了。此外,A35也可以和A72/A57/A53等核心組成big.LITTLE 大小核結構的SoC,可以讓廠商根據需求,搞出各種大小核的組合產品,誇張一點,甚至可以搞出A35+A53+ A72的三核心SoC。

架構改進
A35和A7/A53一樣,依舊是順序執行的雙發射架構。8級流水線,也和之前的架構設計沒什麼分別。ARM主要通過改進獨立分區(individual blocks)來提升能效比。

重點改善的是核心的前端效率,重新設計的指令預取單元,更強的分支預測性能。為了平衡性能和功耗,指令預取時脈寬也跟隨隊列長度的變短而做出了調整。

對比A7,A35在快取速度上有了明顯的提升。A35套用了很多A53的快取結構,L1快取可以用作指令和數據快取,加入了多線程的數據預測和寫入偵查能力,根據需求可以定在8-64KB之間。L2快取可以定在128KB-1BM之間。在提升寫入效率,引入附著優化功能以降低佔用的同時,也提升了資源共享的性能。

另外一個大改進是NEON/FP流水線,除了改善儲存性能外,新的單元全流水線支持雙精度乘法計算。流水線同樣為了提升局部效率而進行了改進,這也是A35晶片面積可以比A53小的重要原因。

在電源管理方面,A35也很像A53,它為CPU和NEON流水線(獨立的電源供應區域)增加了狀態保留功能(retention,在休眠,讓核心保持原來的狀態,類似iOS的Tombstone),它多了個硬體來控制CPU進出保留狀態。廠商很少使用這個功能,暫時確認有引入這個功能的是Snapdragon 810,但或許因為發熱問題,它也在隨後的軟體更新中禁用了這個功能,讓在CPU閒置的時候直接關閉核心了。

低功耗/可客製化/超小晶片面積
A35盯准的功耗區間是125mW以下,這也是A7和A5通常的功耗範圍。為了方便我們腦補,ARM表示,用28nm製程的1GHz時脈A35處理器,其功耗只有90mW。當然,就像現在不同SoC裡的A53,因為核心數、時脈和工藝節點不同,A35核心的功耗也會很大的波動(例如用14/16nm製程,或者把時脈推上2GHz)。

ARM Cortex-A35架構分析,擁有超低功耗與精簡體積的新星

而A35也是ARM可客製化最高的架構,廠商能選擇的不再只有核心數,他們可以選擇是否加入NEON, Crypto(加密)和ACP(解析)單元,甚至是否加入L2快取都可以自行選擇。這讓A35可能成為下一代手機中應用最廣的核心架構,我們也很可能會在可穿戴設備和嵌入式平台上,看到一大堆為IoT(物聯網)客製化的A35處理器。

對比32KB L1 快取,1MB L2快取,有NEON/Crypto加密模塊的4核A53,剔除其他部分的乞丐版單核A35(8KB L1快取,沒有L2快取),即使用28nm製程也能把晶片面積控制在0.4平方毫米一下(1*0.4mm,這可比米粒要小多了),這讓它非常適合做成物聯網晶片。

性能提升
在相同的核心數和時脈下,A35架構宣稱功耗比A7低10%,而且性能要高6-40%。在整數運算(SPECint2006測試)中,可以提升6% ;浮點運算(SPECfp2000測試)中提升更大,可達36%。

ARM Cortex-A35架構分析,擁有超低功耗與精簡體積的新星

根據需求,A35可以做到A53 80至100%性能。在瀏覽器負載測試中,A35和A53的差距最大,A35最多只能提供A53 80%的性能;整數運算負載測試中,A35可以達到A53 84至85%的性能;而對於提升最大的快取性能,反映在需要快取性能的負載測試中,則可以有接近A53的性能表現。

A35的晶片面積只有A53的75%,而功耗則只有A53的68%。ARM宣稱他們可以同時使用,甚至和A53做成大小核架構的SoC。

A35只要把時脈提升,就能補上和A53的性能差距。即使再最差的方案中,高時脈A35會吃掉自己在功耗上的優勢,但廠商依舊可以換來更小的晶片面積,照樣可以省下一大筆費用。

如果正如PPT所說,無論是單獨組成多核SoC,還是和A72等大核組成大小核結構的場合,都已經沒什麼必要使用A53架構了,A35很可能會代替A53。

ARM預計首批A35設備會在2016年末出貨,因為用途和適應性奇廣,它毫無疑問會成為之後數年裡,ARM系列中最重要的的核心架構之一。

這麼一想,A35在接下A5/A7的工作之後,順便也讓A53領便當了……

不過跑分部分,高性能核心A72的表現更讓人在意,畢竟要同時抗衡蘋果的A9、高通的Kryo和三星的 Mongoose (貓鼬),一不小心就得領便當了。
消息來源

延伸影片閱讀:  
Previous post

ViewSonic 祭出1111光棍解寂寞活動 全館九五折下殺好禮

Next post

驍龍 820 正式發表,不過 2016 年才會看到使用的裝置

The Author

XFastest

XFastest