Arm 推出加入 SME2 指令集大幅加速 AI 運算性能的 Lumex CSS AI 平台
Arm 針對智慧手機與平板等行動裝置推出 Lumex CSS AI 平台,內部 CPU 與 GPU 採用新的命名方式,同時加入更多新指令與設計,大幅提升 AI 及光線追蹤的性能。
Arm 在年中宣布產品新的命名方式,以不同的領域應用分別命名,從車用、PC、行動裝置到 IoT 等,現在針對行動裝置的 Lumex 正式宣布推出。
(左起)Arm 終端產品事業部市場策略總監蔡武男、Arm 應用工程總監徐達勇、Arm 首席應用工程師胡岱勛
Arm Lumex 運算子系統(Compute SubSystem,CSS) 是專為行動裝置,包括智慧型手機、平板,甚至是 PC 所設計的新一代 AI 平台。Lumex 平台為採用 Armv9.3的首款產品,其CPU 與 GPU 皆採用新的命名方式,CPU 加入 SME2 指令集,可大幅提升 AI 運算效能,而 GPU 採用第二代光線追蹤單元,光追性能更直接跳升二倍,整個平台的設計可協助合作夥伴能以更彈性設計且更快速推出高性能 AI 裝置,大幅提升 AI 的使用體驗。
Arm Lumex CSS 平台採用新的 CPU 與 GPU,其中 CPU 核心命名改用新的 C1 (1代表第一代),並依照性能、使用面積分為 C1-Ultra、C1-Premium 旗艦等級大核、C1 Pro 高性能核,以及 C1-Nano 小核心,合作夥伴可依照產品定位與性能做不同組合,以高性能的裝置而言,大致上會採用不同數量的 C1-Ultra 搭配 C1-Pro。
新的 C1 CPU 支援 SME2 大幅提升 AI 運算能力
C1 的核心不論大小除了皆是 Armv9.3架構外,更重要就是全部支援新的第二代 Arm 可擴展矩陣延伸指令集 SME2。根據 Arm 目前公布的資料指出,Arm C1 CPU 能夠加速 AI 功能,包括需要大量矩陣運算的大語言模型、影像與視訊處理、語音辨識、電腦視覺、即時應用(AI 助理、運算攝影與 AI 濾鏡)以及多模態應用等。SME2 是在 SME 基礎上做全新的智慧升級,可提升效能、降低記憶體佔用,並讓裝置端執行 AI 更為流暢。啟用 SME2 的 Arm C1 CPU 叢集在同等條件下,能比前一代 CPU 叢集 AI 效能提升五倍,能效也能高達三倍。
旗艦等級配置的 LUMEX CSS 平台具有更好的 AI 表現與更佳的能效
在相同的條件之下,Arm C1 CPU 叢集在實際應用的效能測試,比前一代 CPU 叢集效能平均提升 30%,遊戲和影片串流媒體等應用平均提升 15%。在日常行動裝置端工作負載,如播放影片、社群媒體、網頁瀏覽,平均功耗則降低 12%,對於現代的產品而言,降低功耗代表擁有更長的使用時間,比較能夠吸引使用者。
在全系列 C1 核心當中,C1-Ultra 正是高性能的旗艦大核,可應付嚴苛的 AI 任務和工作負載,其性能表現較前一代高,以單執行緒對比前一代的 Cortex-X925,其效能提升高達 25%,最主要的原因之一就是 C1-Ultra 的 IPC(單時脈周期指令數)提升達雙位數成長。除了單執行緒效能提升外,C1-Ultra 因具有優異的前端設計,並針對實際工作負載最化,再加上具有高性能的微架構與出色的預取器,在面積限制內擁有最佳化的性能,在在各類測試、AI 工作負載及實際應用表現均全面提升。
C1-Premium 是 Arm 首款次旗艦處理器,其核心面積比具有 L2 快取的 Arm C1-Ultra 縮小 35%,可在占用較小面積獲得高性能表現而擁有絕佳的面積效率。
C1-Pro 在高性能 Lumex CSS 中扮演過往小核的角色,比過往的產品具有更好的每瓦效能表現。與前一代的 Arm Cortex-A725 相比,在相同頻率下持續效能提升 16%。在日常應用場景中,在同等效能下,其能效提高多達 12%。C1-Pro 的微架構還導入強化型分支預測和記憶體系統更新,更適合用於多工處理。C1-Pro具有面積最佳化的配置方案,合作夥伴可將其整合到更緊湊的空間中,並能充分發揮 SME2 的效能優勢。
占用面積較小,同時具有 C1 功能特色的 C1-Nano 擁有極致的能耗及面積效率,在搭配新的 Arm DynamIQ Shared Unit (DSU),其能效比 Cortex-A520 提升 26%,在核心面積縮小 2% 之下仍提升效能,將是可穿戴裝置和緊湊型消費性電子裝置的理想選擇。
Arm C1 CPU 叢集為行動裝置提供可擴展的運算基礎,新的 C1-DSU 扮演重要的角色。C1-DSU 支援最新的架構和低功耗,與前一代 DSU-120 相比,其功耗可節省 26%,同時提升頻寬的擴展能力,可支援各種旗艦或高階智慧手機、中階行動裝置或穿戴裝置。
Arm Mali G1-Ultra GPU 擁有更高的性能表現,特別是光線追蹤性能
在 Lumex CSS 中的另一個關鍵元件便是 Arm Mali G1-Ultra GPU,除了命名方式改變之外,其性能表現也提升許多,可提供桌機級遊戲體驗以及更快的 AI 推論。
Arm Mali G1-Ultra GPU 光線追蹤性能是前一代的二倍
Mali G1-Ultra GPU 能在手機上提供優異的遊戲顯示品質,最主要改變就是採用新的第二代光線追蹤(Ray Tracing Unit v2, RTUv2)技術,顯著提升光照、陰影與反射效果,光線追蹤效能為前一代的兩倍,幀率提升 40%。由於 RTUv2 比前一代更智慧,且採用單光線模型,大幅強化對非一致性光線的支援,並成為完全獨立的硬體單元,其模組化架構與獨立電源設計可讓裝置閒置時能單獨關閉電源,即在未使用光線追蹤功能時可以節省電力。
Mali G1 GPU 當然也支援 Arm 精銳超級解析度技術 (Arm Accuracy Super Resolution, Arm ASR),可在減少 GPU 工作負載的同時,維持圖像品質,並保持高幀率,在各種行動裝置上擁有更流暢的遊戲體驗與更清晰的細節。
GPU 是 AI 運算時重要角色,Mali G1-Ultra 導入新的矩陣乘法單元 (MMUL) FP16 指令,可加速如語義分割、降噪、深度估計、物體檢測、語音識別和圖像強化等裝置端關鍵運算,效能比前一代 Immortalis-G925 最高可提升達104%。透過新的 FP16 矩陣運算路徑,Mali G1-Ultra GPU 在 AI 與機器學習網路上的推論速度比 Immortalis-G925 快 20%。同時還改進記憶體、調度和開發者工具,使 Arm 生態系能夠在不犧牲功耗或效率的情況下,擴展視覺效果與 AI 運算能力。
透過擴大的 L2 快取和最佳化的互連設計,Mali G1-Ultra 專為平行處理 AI 與圖像工作負載而打造,大幅減少記憶體瓶頸,並確保即時體驗的靈敏回應與流暢運行。無論是強化照片品質,還是支援更智慧的應用互動,Mali G1-Ultra 都在邊緣裝置端實現回應靈敏的即時AI運算能力。
在各類圖像測試中,Mali G1-Ultra 較前代產品實現 20%的效能提升,為《暗區突圍:無限》、《要塞英雄》、《原神》、《崩壞:星穹鐵道》等主流遊戲帶來全面的效能強化。
Arm 另外還推出 Mali G1-Premium 與 Mali G1-Pro 兩款 GPU,可為硬體資源受限的裝置提供更出色的效能與能效表現。
新的 C1 CPU 與 Mali G1 GPU 都強調 AI 運算性能,正符合混合運算需求,因為不同的模型大小及特性運用不同的算力搭配,以擁有最好的表現。
由於 Lumex CSS 的新設計相較於未啟用 SME2 特性的硬體擁有更好的 AI 性能,包括語音處理、LLM 聊天或是產生音訊等,部分都能擁有高達數倍的表現。
透過 Arm KleidiAI 與主流 AI 框架可開發支援 SME2 的應用並發揮平台性能
開發者要揮發性能時,行動裝置端並不需要修改程式碼,只要透過 Arm KleidiAI 與主流 AI 框架(如阿里巴巴 MNN 、Google LiteRT 和 MediaPipe、Meta llama.cpp 以及微軟 ONNX Runtime)以及 runtime 函式庫(如 Google XNNPACK)整合,直接就能獲取 SME2 的效能優勢。即這些AI 框架和 runtime 函式庫建構應用時,SME2 便已直接嵌入至其軟體堆疊中。其中 Google 部分應用已啟用 SME2,當具有支援 SME2 的智慧手機推出後,就可擁有更優異的 AI 體驗。因為 C1 系列 CPU 皆支援 SME2,未來中階機種也會具有 SME2 硬體而提升 AI 性能。
合作夥伴可依需求選擇使用 Arm Lumex 來打造系統單晶片,例如直接採用 Arm 提供的平台,並運用客製的先進實體實作方案,進而縮短產品上市時間。合作夥伴也可根據目標市場,配置硬體描述語言原始碼(RTL)設計,並自行完成核心模組的硬化工作。
Arm Lumex 不僅是 Arm 針對消費運算市場的最先進 CSS 平台,更是開啟新時代智慧 AI 體驗的基礎。無論是 OEM 廠商還是開發者,Lumex 均可提供所需工具,協助其在關鍵裝置端的應用場景實現兼具個性化、隱私保障與高效能的 AI 體驗。