NVIDIA Hopper 在 MLPerf 的生成式人工智慧領域取得飛躍性進展

NVIDIA 正式宣布在業界標準測試中提供了世界上最快的生成式人工智慧（AI）推論平台。

在最新的 MLPerf 基準測試中，NVIDIA TensorRT-LLM 這個可加速和簡化大型語言模型的複雜推論工作的軟體將 GPT-J LLM 上的 NVIDIA Hopper 架構 GPU 效能較六個月前提高了近 3 倍。

速度的大幅提升展示了 NVIDIA 的晶片、系統和軟體全端平台在滿足運行生成式 AI 嚴苛要求方面的強大能力。

諸多領先的公司正在使用TensorRT-LLM 最佳化他們的模型。而 NVIDIA NIM 是一套推論微服務，其中包含 TensorRT-LLM 等推論引擎，讓企業比以往能更輕鬆地部署 NVIDIA 推論平台。

提高生成式 AI 的標準

在NVIDIA H200 Tensor核心GPU（最新的記憶體增強型 Hopper GPU）上運行的 TensorRT-LLM，在 MLPerf 迄今為止最大規模的生成式 AI 測試中提供了最快的運行推論效能。

新的基準測試使用 Llama 2 的最大版本，Llama 2 是最先進的大型語言模型，包含 700 億個參數。該模型比 9 月基準測試中首次使用的 GPT-J 大型語言模型大 10 倍以上。

記憶體增強型 H200 GPU 在 MLPerf 首次亮相時，使用 TensorRT-LLM 每秒產生高達 31,000 個詞元，創下了 MLPerf 的 Llama 2 基準測試的紀錄。

H200 GPU 的結果包括客製化散熱解決方案帶來的高達 14% 的增益。這是標準空氣冷卻以外的創新範例之一，系統製造商正在將其應用到 NVIDIA MGX 設計中，以將 Hopper GPU 的效能提升到新的高度。

NVIDIA Hopper GPU 的記憶體提升

NVIDIA 現在已提供 H200 GPU 供客戶測試，並將於第二季出貨。H200 GPU 很快將由近 20 家領先的系統製造商和雲端服務供應商來提供。

H200 GPU 包含 141GB 高頻寬記憶體 HBM3e，運轉速度為 4.8TB/s。與 H100 GPU 相比，記憶體增加了 76%，運行速度提高了 43%。這些加速器可插入與 H100 GPU 相同的主機板和系統，並使用相同的軟體。

借助 HBM3e 記憶體，單個 H200 GPU 能以最高吞吐量運行整個 Llama 2 70B 模型，從而簡化並加速推論。

GH200 配備更多的記憶體

NVIDIA GH200 超級晶片中配備更多記憶體，最高可達 624GB 高速記憶體，其中包含 144GB 的 HBM3e 記憶體，此超級晶片將 Hopper 架構 GPU 和節能的 NVIDIA Grace CPU 結合在一個模組上。NVIDIA 加速器是首批使用 HBM3e 記憶體技術的加速器。

憑藉將近 5 TB/s 的記憶體頻寬，GH200 超級晶片在如推薦系統等記憶體密集型的 MLPerf 測試中提供了出色的效能。

橫掃每一個 MLPerf 測試

以每個加速器為基礎，Hopper GPU 在最新一輪MLPerf產業基準測試中，橫掃了所有AI推論測試。

這些基準測試涵蓋當今最受歡迎的AI工作負載和場景，包括生成式AI、推薦系統、自然語言處理、語音和電腦視覺。NVIDIA是唯一一家在最新一輪以及自 2020 年 10 月開始 MLPerf 資料中心推論基準測試以來，每一輪都提交所有工作負載結果的公司。

持續的效能提升意味著推論成本的降低，對於全球部署的數百萬個NVIDIA GPU來說，推論已成為日常工作中的一大部分，而且還在不斷增長。

推進一切可能

NVIDIA在基準測試中一個名為「開放組」的特別部分中展示了三種創新技術，這部分是為了測試先進的AI方法而創建。

NVIDIA 工程師使用了一種稱為結構化稀疏性（structured sparsity）的技術，使 Llama 2 的推論速度提高了 33%。結構化稀疏性是一種減少計算的方法，首次在 NVIDIA A100 Tensor核心GPU 中引入。

第二個開放組測試發現，使用剪枝技術（pruning）可以將推論速度提高高達40%，這是簡化AI模型（此例為大型語言模型）以增加推論吞吐量的一種方式。

最後，一種名為 DeepCache 的最佳化方法減少了對 Stable Diffusion XL 模型推論所需的數學運算，將效能提升了驚人的 74%。

所有這些結果都是在NVIDIA H100 Tensor核心GPU 上運行的。

使用者值得信賴的來源

MLPerf 的測試透明且客觀，因此使用者可以依靠結果做出明智的購買決定。

NVIDIA 的合作夥伴參與 MLPerf 是因為他們知道這對客戶評估 AI 系統和服務來說是一個很有價值的工具。

本輪在NVIDIA AI平台上提交結果的合作夥伴包括華碩電腦、思科、戴爾科技集團、富士通、技嘉科技、Google、慧與科技、聯想、Microsoft Azure、甲骨文、雲達科技、美超微、VMware（最近由博通收購）和緯穎科技。

NVIDIA在本次測試中使用的所有軟體都可以從MLPerf資源庫中取得，NVIDIA不斷將軟體最佳化結果放入NVIDIA的GPU應用軟體中心NGC以及 NVIDIA AI Enterprise的容器中。NVIDIA AI Enterprise為一個安全、受支援的平台，其中包含 NIM 推論微服務。

下一件大事

生成式AI的用例、模型大小和資料集不斷擴大。這就是 MLPerf 不斷發展的原因，增加了 Llama 2 70B 和 Stable Diffusion XL等主流模型的真實測試。

為了跟上大型語言模型規模的爆炸性增長，NVIDIA 創辦人暨執行長黃仁勳上週在GTC上宣布，NVIDIA Blackwell 架構 GPU將提供兆級參數 AI 模型所需的新效能水平。

大型語言模型的推論非常困難，需要專業知識和 NVIDIA 使用 Hopper 架構 GPU 和 TensorRT-LLM 在 MLPerf 上展示的全端架構。未來還會有更多。

了解有關 MLPerf 基準測試和本輪推論的技術細節。

延伸影片閱讀：

NVIDIA Hopper 在 MLPerf 的生成式人工智慧領域取得飛躍性進展

喜不喜歡這篇文章？留言給我們

小廢物大反轉！畢製作品《苔蘚綠洲》反映真實人生　勇奪最佳學生遊戲

奇美家電於台北電器空調影音 3C 大展推出 Google TV G2 系列液晶顯示器與空調新產品

The Author

sinchen

傳聞 RTX4060Ti 下半月供應緊缺，NVIDIA 預計不會增加產量

所有NVIDIA、AMD顯示卡皆已跌破建議售價只有一例外

全面開放 NVIDIA GPU 加速 Meta Llama 3 大型 LLM 推論效能

Ampere 世代新卡 NVIDIA RTX A400 和 A1000 GPU 增強 AI 設計與生產力工作

晶片大神建議NVIDIA這樣做可以省數十億美元

傳播產業的突破：NVIDIA Holoscan for Media 以 AI 整合改變直播媒體

日本發現Intel CPU 自動販賣機，用 3 美元獲得了 Core i7-8700

安卓陣營進入新時代高通驍龍8 Gen 4處理器首次採用3nm製程

所有NVIDIA、AMD顯示卡皆已跌破建議售價只有一例外

平板新選擇！Acer 平板電腦Iconia Tab M10 LTE 上市開賣

日本專家：5G跟4G相比沒啥大區別用戶感知太弱