AMD 與 Oracle 擴大合作採用 Instinct MI300X 與 EPYC 組建 AI 超級叢集

AMD 與 Oracle 在 Oracle AI World 大會上，共同宣布大幅擴展雙方長期且跨世代的合作，協助客戶顯著擴展 AI 能力與相關部署計畫。奠基於多年來的共同創新成果，Oracle Cloud Infrastructure (OCI) 將成為首批合作夥伴，提供搭載 AMD Instinct™ MI450 系列 GPU 的公共 AI 超級叢集，首批將於 2026 年第 3 季部署 50,000 個 GPU，並計畫於 2027 年及未來持續擴大規模。

此項合作奠基於 AMD 與 Oracle 先前共同努力的成果，為終端客戶在 OCI 上提供 AMD Instinct GPU 平台，始於 2024 年推出搭載 AMD Instinct MI300X 的運算型態（shape），並將進一步擴展至搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。這些服務將部署於 Zettascale 等級的OCI 超級叢集之中。

隨著新世代 AI 模型不斷超越現有 AI 叢集的極限，市場對大規模 AI 運算容量的需求正加速增長。為訓練與運行這些工作負載，客戶需具備極致規模與效率的靈活且開放式運算解決方案。OCI 計劃中的全新 AI 超級叢集將由 AMD「Helios」機架設計挹注動能，結合 AMD Instinct MI450 系列 GPU、代號為「Venice」的新一代 AMD EPYC™ CPU，以及代號為「Vulcano」的新一代 AMD Pensando™ 先進網路技術。這套垂直最佳化的機架級架構，旨在為大規模 AI 訓練與推論提供極致效能、擴展性與能源效率。

AMD Instinct MI450 系列 GPU 為 OCI 挹注動能

搭載 AMD Instinct MI450 系列 GPU 的運算型態，旨在提供高效能且靈活的雲端部署選項，並具備廣泛的開源支援。這為客戶運行當今最先進的語言模型、生成式 AI 和高效能運算（HPC）工作負載提供理想的基礎。透過 OCI 上的 AMD Instinct MI450 系列 GPU，客戶將能受益於：

突破性的運算與記憶體技術：透過增加AI訓練模型的記憶體頻寬，協助客戶加速成果產出、處理更複雜的工作負載，並降低模型分割的需求。每個AMD Instinct MI450系列GPU將提供高達432 GB的HBM4記憶體與20 TB/s的記憶體頻寬，讓客戶能夠在記憶體內完整訓練與推論比前一代大50%的模型。
AMD最佳化的「Helios」機架設計：透過高密度、液冷式設計的72個GPU機架，讓客戶在大規模部署中兼顧最佳化效能密度、成本與能源效率。AMD 「Helios」機架設計整合UALoE向上擴展連接性，以及基於乙太網路並符合超高速乙太網路聯盟（UEC）標準的向外擴展網路，以最小化叢集與機架之間的延遲並最大化吞吐量。
強大的前端節點：透過採用代號為「Venice」的新一代AMD EPYC CPU，強化作業編排與資料處理，協助客戶最大化叢集利用率並簡化大規模工作流程。此外，EPYC CPU將提供機密運算功能和內建安全功能，以端對端保護敏感的AI工作負載。
DPU加速的融合網路：以線速資料擷取提升大規模AI與雲端基礎設施效能並強化安全態勢。基於完全可程式化的AMD Pensando DPU技術，DPU加速的融合網路提供資料中心運行新世代AI訓練、推論和雲端工作負載所需的安全性和效能。
AI向外擴展網路：讓客戶能夠利用超高速分散式訓練與最佳化集體通訊，搭配具備未來性的開放式網路架構。每個GPU可配備多達3個800 Gbps的AMD Pensando “Vulcano” AI網路卡（AI-NIC），為客戶提供支援先進RoCE和UEC標準的無損、高速且可程式化連接能力。
創新的UALink和UALoE網路架構：協助客戶有效延展工作負載、緩解記憶體瓶頸，並編排大型的數兆參數模型。此可擴展架構能最小化傳輸跳數與延遲，且無需透過CPU路由，並透過UALoE網路架構傳輸的UALink協定，實現機架內GPU之間直接且硬體一致的網路互連與記憶體共享。UALink是專為AI加速器打造的開放式高速互連標準，並獲得廣泛產業體系支持。因此，客戶將享有在基於開放標準的基礎設施上運行最嚴苛AI工作負載所需的靈活性、擴展性與可靠性。
開源AMD ROCm™軟體堆疊：透過為客戶提供開放、靈活的程式設計環境，涵蓋主流框架、函式庫、編譯器和執行環境，實現快速創新、提供供應商選擇自由，並簡化現有AI和HPC工作負載的遷移。
進階分割與虛擬化：透過細粒度GPU和叢集分割、SR-IOV虛擬化技術以及強大的多租戶能力，讓客戶根據工作負載需求分配GPU，安全且高效地共享叢集資源。

為提供大規模建構、訓練與推論AI的客戶更多選擇，OCI 同步宣布搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。這些服務將在可擴展至 131,072 個 GPU 的 Zettascale 等級 OCI 超級叢集中提供。搭載 AMD Instinct MI355X 的運算型態具備高性價比、雲端部署靈活性與開源相容性。欲了解更多資訊，請參閱 Oracle 部落格及 Oracle 新聞稿。

AMD 與 Oracle 擴大合作採用 Instinct MI300X 與 EPYC 組建 AI 超級叢集

最強迷你主機！ROG NUC (2025) NUC15JNK 測試報告 / 275HX + RTX 5080 175W 滿血輸出

宜鼎與國際大廠緊密合作鎖定邊緣 AI 並提供可落地的完整解決方案

The Author

sinchen

大夥兒不買 CPU銷售降至歷史新低

AI需求暴衝 CPU缺貨加劇、價格全面上漲

AMD Ryzen 9 9950X3D2 將在 4/22 日推出堆疊雙快取達到 208MB 快取量

記憶體之後處理器跟上缺貨長達六個月價格上漲

戴爾科技搶先掌握未來趨勢引領企業現代化 IT 應用新局

漲價潮影響 CPU銷售量腰斬

大夥兒不買 CPU銷售降至歷史新低

聯發科最強處理器天璣9600要來了效能大躍進

大量反饋！微軟緊急撤回 Win11 更新 KB5079391 ，深入調查 0x80073712 安裝錯誤