AMD Advancing AI 2025 發表 Instinct MI350 加速器打造全 AMD 硬體開源軟體 AI 解決方案
AMD Advancing AI 2025 大會中提到:「只有 AMD 能夠提供完整涵蓋 CPU、GPU、網路與開源軟體的 AI 靈活、效能解決方案。」,此次發表主要以 AMD Instinct MI350 系列加速器、ROCm 7 更新與網路等更新。
關於加速器的規劃,AMD 承諾 2025 年推出 Instinct MI350 系列加速器,而在 2026 年則會有著下一代 MI400 等產品。
新推出的 AMD Instinct MI350 系列將包含 MI350X 與 MI355X GPU,採用 CDNA 4 架構、3nm 製程節點、有著 185B 個電晶體,新支援 FP4 與 FP6 資料格式,並整合 HBM3E 高頻寬記憶體。
這兩款 GPU 在功耗上有著明顯差異,連帶也影響著不同精度的運算效能表現。採用的 CDNA 4 GPU 架構 主要在強化 Matrix 引擎讓 GenAI、LLM 有著更好的表現,並增加新的資料格式,強化 Infinity Fabric 與先進封裝連接等技術,當然也強化電源使用效率。
MI350 維持 COWOS-S 封裝技術,加速運算單元 XCD 採用 N3P 製程並堆疊在 N6 製程的 I/O 晶片 IOD 之上,並藉由 Infinity Fabric AP 進行兩個 GPU 核心連接,同時 2.5D 封裝 HBM3E 記憶體顆粒。
MI350 GPU 架構採用 8 x 32 個 AMD CDNA 4 CU 運算單元,並有著 2 組 I/O Die 提供 128 通道 HBM3E 記憶體介面、256MB Infinity Cache 與 IInfinity Fabric Links。
HBM3E 記憶體有著 8 個物理堆疊提供 288GB 容量 8TBs 的速度;兩組 XCD 使用 Infinity Fabric AP 內部連接,並提供 HOST PCIe 5.0 128GB 連接性,以及 Infinity Fabric 彈性擴充 GPU 的連接能力。
MI350 核心區塊圖,則是 8 組 XCD 內部有著多個 CU 運算單元與獨立 4MB L2 快取,通過 Infinity Fabric 互相連接將 Infinity Cache 做為 HBM3E 記憶體的緩衝。
並使用 1 個 PCIe Gen5 x16 連接,提供 7 個 IF Links 可擴充更多的 MI350 GPU。
MI350 有著更彈性的 GPU 分區規劃,主要支援 NPS1 與 NPS2,最多可分配 8 個分區,讓用戶可依據需求來彈性配置。
像是使用 SPX + NPS1 單一分區時可支援 520B 參數的 AI 模型;或者使用 CPX + NPS2 分去可支援 8 個 Llama 3.1 70B 模型實例。
MI350 支援的資料格式與上一代 MI300 比較,主要有著新增 FP6/FP4 格式,並針對 AI 主力的精度有著效能提升。
平台方面最多可擴充 8 個 MI350 GPU,GPU 內部通過 Infinity Fabric 內部雙向連接,並分別通過 PCIe Gen5 雙向與 CPU 連接。並提供空冷 4U Tray 與 DLC 液冷 1OU 與 2U Tray 等形式。
AMD Instinct MI350 系列 Rack Infrastructure,藉由 AMD EPYC x86 處理器,搭配 Instinct MI350 GPU 以及 AMD Pollara NIC,藉由 OCP Design 與 UEC 支援,提供完整的開放機架。
MI350 系列則分為 MI355X DLC 與 MI350X AC 解決方案兩種。MI355X DLC 液冷機架最高可達到 128x MI355X GPU 的最大化效能,至於空冷 MI350X AC 則是最高 64x MI350X GPU。
效能方面 MI355X 相比 GB200 與 B200 有著相近的記憶體容量與頻寬,但在 PEAK FP64 / FP32 有著 2x 倍的提升,至於 FP16 / FP8 / FP4 都是 1x 唯獨 FP6 是 2x。
各種 AI 應用方面,MI355X 相比上一代 MI300X 可有著 3x 倍效能提升,像是 AI Agent、聊天機器人、內容生成、模擬、摘要、對話式 AI 等應用。
主流的幾個 AI 模型在推論效能上,MI355X 相比上一代在 DeepSeek R1 有著 3x 提升、Llama 3.3 70B 模型 3.2x、Llama 4 Maverick 3.3x 倍提升。
MI355X 在主流的超大模型中相比 B200 可有著 1.2-1.3x 倍的提升,而且是在新加入的 FP4 精度上的效能領先,至於相比 GB200 則是效能相當的表現。Instinct MI355X 相比 B200 有著 40% 更多的每元 Tokens/$。
針對模型的 Pre-Training 與 Fine-Tuning,MI355X 相比上一代 MI300X 在各種主流模型中有著 3x 倍的效能提升。
Pre-Training FP8、FP16 等格式 MI355X 效能與 B200 相當;Fine-Tuning FP8 格式 Llama 2 70B 模型時,MI355X 則比起 B200 與 GB200 的效能約提升 1.1x 倍。
AMD Instinct MI350 系列解決方案將在 Q3 由合作夥伴推出,同時 AMD 也提到明年 2026 會推出 Helios 機架產品,包含新一代 EPYC、MI400 與 Vulcano 等產品。