AMD Advancing AI 2025 發表 Instinct MI350 加速器打造全 AMD 硬體開源軟體 AI 解決方案

AMD Advancing AI 2025 大會中提到：「只有 AMD 能夠提供完整涵蓋 CPU、GPU、網路與開源軟體的 AI 靈活、效能解決方案。」，此次發表主要以 AMD Instinct MI350 系列加速器、ROCm 7 更新與網路等更新。

關於加速器的規劃，AMD 承諾 2025 年推出 Instinct MI350 系列加速器，而在 2026 年則會有著下一代 MI400 等產品。

新推出的 AMD Instinct MI350 系列將包含 MI350X 與 MI355X GPU，採用 CDNA 4 架構、3nm 製程節點、有著 185B 個電晶體，新支援 FP4 與 FP6 資料格式，並整合 HBM3E 高頻寬記憶體。

這兩款 GPU 在功耗上有著明顯差異，連帶也影響著不同精度的運算效能表現。採用的 CDNA 4 GPU 架構主要在強化 Matrix 引擎讓 GenAI、LLM 有著更好的表現，並增加新的資料格式，強化 Infinity Fabric 與先進封裝連接等技術，當然也強化電源使用效率。

MI350 維持 COWOS-S 封裝技術，加速運算單元 XCD 採用 N3P 製程並堆疊在 N6 製程的 I/O 晶片 IOD 之上，並藉由 Infinity Fabric AP 進行兩個 GPU 核心連接，同時 2.5D 封裝 HBM3E 記憶體顆粒。

MI350 GPU 架構採用 8 x 32 個 AMD CDNA 4 CU 運算單元，並有著 2 組 I/O Die 提供 128 通道 HBM3E 記憶體介面、256MB Infinity Cache 與 IInfinity Fabric Links。

HBM3E 記憶體有著 8 個物理堆疊提供 288GB 容量 8TBs 的速度；兩組 XCD 使用 Infinity Fabric AP 內部連接，並提供 HOST PCIe 5.0 128GB 連接性，以及 Infinity Fabric 彈性擴充 GPU 的連接能力。

MI350 核心區塊圖，則是 8 組 XCD 內部有著多個 CU 運算單元與獨立 4MB L2 快取，通過 Infinity Fabric 互相連接將 Infinity Cache 做為 HBM3E 記憶體的緩衝。

並使用 1 個 PCIe Gen5 x16 連接，提供 7 個 IF Links 可擴充更多的 MI350 GPU。

MI350 有著更彈性的 GPU 分區規劃，主要支援 NPS1 與 NPS2，最多可分配 8 個分區，讓用戶可依據需求來彈性配置。

像是使用 SPX + NPS1 單一分區時可支援 520B 參數的 AI 模型；或者使用 CPX + NPS2 分去可支援 8 個 Llama 3.1 70B 模型實例。

MI350 支援的資料格式與上一代 MI300 比較，主要有著新增 FP6/FP4 格式，並針對 AI 主力的精度有著效能提升。

平台方面最多可擴充 8 個 MI350 GPU，GPU 內部通過 Infinity Fabric 內部雙向連接，並分別通過 PCIe Gen5 雙向與 CPU 連接。並提供空冷 4U Tray 與 DLC 液冷 1OU 與 2U Tray 等形式。

AMD Instinct MI350 系列 Rack Infrastructure，藉由 AMD EPYC x86 處理器，搭配 Instinct MI350 GPU 以及 AMD Pollara NIC，藉由 OCP Design 與 UEC 支援，提供完整的開放機架。

MI350 系列則分為 MI355X DLC 與 MI350X AC 解決方案兩種。MI355X DLC 液冷機架最高可達到 128x MI355X GPU 的最大化效能，至於空冷 MI350X AC 則是最高 64x MI350X GPU。

效能方面 MI355X 相比 GB200 與 B200 有著相近的記憶體容量與頻寬，但在 PEAK FP64 / FP32 有著 2x 倍的提升，至於 FP16 / FP8 / FP4 都是 1x 唯獨 FP6 是 2x。

各種 AI 應用方面，MI355X 相比上一代 MI300X 可有著 3x 倍效能提升，像是 AI Agent、聊天機器人、內容生成、模擬、摘要、對話式 AI 等應用。

主流的幾個 AI 模型在推論效能上，MI355X 相比上一代在 DeepSeek R1 有著 3x 提升、Llama 3.3 70B 模型 3.2x、Llama 4 Maverick 3.3x 倍提升。

MI355X 在主流的超大模型中相比 B200 可有著 1.2-1.3x 倍的提升，而且是在新加入的 FP4 精度上的效能領先，至於相比 GB200 則是效能相當的表現。Instinct MI355X 相比 B200 有著 40% 更多的每元 Tokens/$。

針對模型的 Pre-Training 與 Fine-Tuning，MI355X 相比上一代 MI300X 在各種主流模型中有著 3x 倍的效能提升。

Pre-Training FP8、FP16 等格式 MI355X 效能與 B200 相當；Fine-Tuning FP8 格式 Llama 2 70B 模型時，MI355X 則比起 B200 與 GB200 的效能約提升 1.1x 倍。

AMD Instinct MI350 系列解決方案將在 Q3 由合作夥伴推出，同時 AMD 也提到明年 2026 會推出 Helios 機架產品，包含新一代 EPYC、MI400 與 Vulcano 等產品。