AMD 與 Oracle 擴大合作採用 Instinct MI300X 與 EPYC 組建 AI 超級叢集
AMD 與 Oracle 在 Oracle AI World 大會上,共同宣布大幅擴展雙方長期且跨世代的合作,協助客戶顯著擴展 AI 能力與相關部署計畫。奠基於多年來的共同創新成果,Oracle Cloud Infrastructure (OCI) 將成為首批合作夥伴,提供搭載 AMD Instinct™ MI450 系列 GPU 的公共 AI 超級叢集,首批將於 2026 年第 3 季部署 50,000 個 GPU,並計畫於 2027 年及未來持續擴大規模。
此項合作奠基於 AMD 與 Oracle 先前共同努力的成果,為終端客戶在 OCI 上提供 AMD Instinct GPU 平台,始於 2024 年推出搭載 AMD Instinct MI300X 的運算型態(shape),並將進一步擴展至搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。這些服務將部署於 Zettascale 等級的OCI 超級叢集之中。
隨著新世代 AI 模型不斷超越現有 AI 叢集的極限,市場對大規模 AI 運算容量的需求正加速增長。為訓練與運行這些工作負載,客戶需具備極致規模與效率的靈活且開放式運算解決方案。OCI 計劃中的全新 AI 超級叢集將由 AMD「Helios」機架設計挹注動能,結合 AMD Instinct MI450 系列 GPU、代號為「Venice」的新一代 AMD EPYC™ CPU,以及代號為「Vulcano」的新一代 AMD Pensando™ 先進網路技術。這套垂直最佳化的機架級架構,旨在為大規模 AI 訓練與推論提供極致效能、擴展性與能源效率。
AMD Instinct MI450 系列 GPU 為 OCI 挹注動能
搭載 AMD Instinct MI450 系列 GPU 的運算型態,旨在提供高效能且靈活的雲端部署選項,並具備廣泛的開源支援。這為客戶運行當今最先進的語言模型、生成式 AI 和高效能運算(HPC)工作負載提供理想的基礎。透過 OCI 上的 AMD Instinct MI450 系列 GPU,客戶將能受益於:
- 突破性的運算與記憶體技術:透過增加AI訓練模型的記憶體頻寬,協助客戶加速成果產出、處理更複雜的工作負載,並降低模型分割的需求。每個AMD Instinct MI450系列GPU將提供高達432 GB的HBM4記憶體與20 TB/s的記憶體頻寬,讓客戶能夠在記憶體內完整訓練與推論比前一代大50%的模型。
- AMD最佳化的「Helios」機架設計:透過高密度、液冷式設計的72個GPU機架,讓客戶在大規模部署中兼顧最佳化效能密度、成本與能源效率。AMD 「Helios」機架設計整合UALoE向上擴展連接性,以及基於乙太網路並符合超高速乙太網路聯盟(UEC)標準的向外擴展網路,以最小化叢集與機架之間的延遲並最大化吞吐量。
- 強大的前端節點:透過採用代號為「Venice」的新一代AMD EPYC CPU,強化作業編排與資料處理,協助客戶最大化叢集利用率並簡化大規模工作流程。此外,EPYC CPU將提供機密運算功能和內建安全功能,以端對端保護敏感的AI工作負載。
- DPU加速的融合網路:以線速資料擷取提升大規模AI與雲端基礎設施效能並強化安全態勢。基於完全可程式化的AMD Pensando DPU技術,DPU加速的融合網路提供資料中心運行新世代AI訓練、推論和雲端工作負載所需的安全性和效能。
- AI向外擴展網路:讓客戶能夠利用超高速分散式訓練與最佳化集體通訊,搭配具備未來性的開放式網路架構。每個GPU可配備多達3個800 Gbps的AMD Pensando “Vulcano” AI網路卡(AI-NIC),為客戶提供支援先進RoCE和UEC標準的無損、高速且可程式化連接能力。
- 創新的UALink和UALoE網路架構:協助客戶有效延展工作負載、緩解記憶體瓶頸,並編排大型的數兆參數模型。此可擴展架構能最小化傳輸跳數與延遲,且無需透過CPU路由,並透過UALoE網路架構傳輸的UALink協定,實現機架內GPU之間直接且硬體一致的網路互連與記憶體共享。UALink是專為AI加速器打造的開放式高速互連標準,並獲得廣泛產業體系支持。因此,客戶將享有在基於開放標準的基礎設施上運行最嚴苛AI工作負載所需的靈活性、擴展性與可靠性。
- 開源AMD ROCm™軟體堆疊:透過為客戶提供開放、靈活的程式設計環境,涵蓋主流框架、函式庫、編譯器和執行環境,實現快速創新、提供供應商選擇自由,並簡化現有AI和HPC工作負載的遷移。
- 進階分割與虛擬化:透過細粒度GPU和叢集分割、SR-IOV虛擬化技術以及強大的多租戶能力,讓客戶根據工作負載需求分配GPU,安全且高效地共享叢集資源。
為提供大規模建構、訓練與推論AI的客戶更多選擇,OCI 同步宣布搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。這些服務將在可擴展至 131,072 個 GPU 的 Zettascale 等級 OCI 超級叢集中提供。搭載 AMD Instinct MI355X 的運算型態具備高性價比、雲端部署靈活性與開源相容性。欲了解更多資訊,請參閱 Oracle 部落格及 Oracle 新聞稿。