記者會

AWS 推出自行開發的 Graviton4 與 Trainium2 晶片擁有更高性能表現

AWS 於 re:Invent 活動中宣布多款新產品及服務上市,其中亦包括新一代自行開發的晶片系列,包括雲端工作負載的 Graviton4 與 AI 模型訓練的 Trainium2。

在網路的時代中,提供各種服務的伺服器正是重要的基礎設施,x86 伺服器向來是各種通用型服務的首選機種,然而在不同應用當中,許多人發現 x86 處理器在某些應用中並非最好的選擇,而因永續的議題也使得大家也開始重視能源效率的問題,因此有不同架構處理器應用於較專門的伺服器當中。

提供公有雲服務著稱的 AWS,提供的服務可以細分非常多種,讓企業可以依照需求來選擇。為了提供高運算效能與較低功耗表現,AWS 亦投入自行開發晶片/處理器的行列,提供客戶AMD、Intel等處理器外不同個體的選擇。現在AWS 自行開發的 Graviton 與 Trainium 系列皆推出新一代產品,可分別應用在不同領域上。


AWS Graviton 系列於 2018年首度推出,今年宣布推出第四代

針對雲端服務等廣泛工作負載設計的 Graviton 系列在 2018 年推出後,即以高性能低功耗的特性吸引許多人採用以它為基礎的個體,並在後續幾年間陸續推出數代產品。Graviton 系列處理器採用 Arm 架構設計,作業系統與應用程式支援廣泛,到目前為止,AWS 提供採用 Graviton 系列的 EC2 執行個體種類超過 150個,運用的 Graviton 系列處理器數量更超過200萬個。

目前使用的客戶超過 50,000個,其中包括 Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe 以及 Zendesk 等皆有採用 Graviton 系列的執行個體以執行如資料庫、資料分析、網路服務器、批次處理、廣告服務、應用伺服器以及微服務等應用。


AWS Graviton4 處理器具有 96 個 Arm Neoverse V2 核心

隨著客戶把更大的記憶體資料庫和分析工作負載遷移到雲端,對運算、記憶體、儲存和網路的要求也隨著增加,也就需要更高效能和更大的執行個體來執行,同時還需要改善所需求本,也降低對環境的影響。

此次新推出的 Graviton4 處理器,採用 96 個 Arm Neoverse V2 核心設計,指令集也採用 ARMv9.0-A,對比具有 64個 Neoverse V1 核心的 Graviton3,其性能提升30%,獨立核心增加50%以上。而且它支援12個 DDR5-5600 記憶體通道,對比 Graviton3 的 DDR5-4800 8通道,其記憶體頻寬提升75%以上。就應用面與前一代相比,Graviton4 在資料庫應用的性能提升 40%,Java 應用的性能則提升 45%。


Graviton4 處理器性能大幅提升

AWS 將推出採用最新 Graviton4 處理器的 EC2 R8g 記憶體最佳化執行個體(Instances),讓客戶執行高性能資料庫、記憶體快取、大數據分析等工作負載的效率。和前一代的 R7g 相比,R8g 擁有更大的執行個體大小,而虛擬處理器(vCPU)以及記憶體性能均提升三倍,可讓使用者處理更大量的資料、更大規模的工作負載、更快獲得運算結果,更重要是降低總擁有成本。

隨著人工智慧(AI)受到重視與更多應用,也讓運算需求大幅提升,然而通用的處理器在執行人工智慧某些運算時效能並不佳。特別是現在大受矚目的生成式 AI,其背後的基礎模型和大語言模型都需要使用巨量的資料進行訓練,更有驚集數量的參數與變數,用來創造文字、音訊、圖片、影片、甚至程式碼等新內容,都需要龐大的算力。


為人工智慧深度學習與訓練設計的 AWS Trainium2

根據不同人工智慧運算需求,AWS 提供多種機器學習晶片支援的 Amazon EC2 執行個體,包括 NVIDIA GPU、Trainium 以及 Inferentia2。其中專為訓練設計的 Trainium 在推出後,其高性能、高可靠性、可擴展性以及低成本等優勢,已有 Databricks、Helixon、Money Forward 以及 Amazon Search 等眾多客戶用來訓練大規模深度學習模型。

然而隨著訓練模型的大幅擴張,客戶需要更高的效能和規模來訓練,以提升訓練速度、降低成本並降低能源消耗。為了滿足這樣的需求,AWS 便為高效能訓練具有數萬億個參數或變數的基礎模型和大語言模型推出新一代 Trainium2 晶片。


AWS Trainium2 性能大幅提升可訓練巨量參數的模型

Trainium2 與第一代 Trainium 相比,其效能提升達四倍,記憶體提升三倍,可在極短的時間完成訓練基礎模型(FMs)和大語言模型(LLMs),而且能源效率(每瓦效能)提升達二倍。

採用 Trainium2 的 Amazon EC2 Trn2 執行個體 ,一個單獨執行個體包含16個 Trainium 加速晶片。Trn2執行個體更可讓客戶在新一代 EC2 UltraClusters 中擴展至高達100,000個 Trainium2 加速晶片,並與AWS Elastic Fabric Adapter (EFA)PB級網路互連,提供的性能高達 65 Exaflops,以獲得超級電腦等級的性能。在這種運算規模等級下,客戶將可在數周訓練完成一個具有三千億參數的大語言模型,而不再需要耗時數個月。透過顯著降低的成本提供最高橫向擴充的模型訓練,Trainum2 執行個體可以幫助客戶開啟並加速生成式 AI 的創新。

延伸影片閱讀:  
Previous post

《飄流幻境M》全新資料片「女神的感召」正式登場!

Next post

微軟推出適用於 Android 的獨立 Copilot 應用程式

The Author

Kenny Kuan

Kenny Kuan

在科技媒體多年,為Xfastest News網站科技產品發表會或是記者會採訪記者,也是Xfastest採訪文撰寫編輯。