NVIDIA 用 1,472 個 V100 GPU 加速 AI 語言模型 BERT 訓練效能

如今已有不少基本的對話式回覆機器人或 AI 服務已存在多年，然而想要在提升聊天機器人、智慧個人助理服務，以人類理解力的水平運作還是相當困難，主要是無法即時部署超大規模的 AI 模型進行訓練與推論。

NVIDIA 的 AI 平台率先訓練目前最先進的 AI 語言模型，BERT（Bidirectional Encoder Representations from Transformers）是由 Google 所開發的人工智慧自然語言模型，用不到 1 小時即可完成訓練，並在 2ms 內完成 AI 推論。根據 Juniper Research 的報告，光是數位語音助理市場規模預計在未來 5 年內將從 25 億美元成長到 80 億美元。此外， Gartner 也預測 2021 年，15% 的客服互動將完全由 AI 執行，與 2017 年相比增加 400%。

NVIDIA 採用內建 1,472 個 V100 GPU 所組成的 92 個 DGX-2HTM 系統 NVIDIA DGX SuperPOD，執行 AI 語言模型 BERT-Large，成功將 AI 訓練時間從先前的數日大幅縮短至僅 53 分鐘。此外，若只透過一台 NVIDIA DGX-2 系統也可在 2.8 天內就完成 BERT-Large 的訓練。

推論方面，可透過 NVIDIA T4 GPU 運行 TensorRT，在 BERT-Base SQuAD 資料集上僅用 2.2ms 就完成推論，不僅遠低於許多即時應用要求的 10ms 的處理門檻，也大幅領先以高度優化 CPU 程式碼執行的 40ms。

而 NVIDIA Research 在 Transformers 的基礎上著手建構與訓練全球最大的語言模型，並導入 BERT 採用的技術元件，以及許多其他自然語言的 AI 模型。NVIDIA的客製化模型擁有 83 億個參數，數量足足比 BERT-Large 多出 24 倍。

有興趣的開發者，可參考以下連結：

NVIDIA GitHub BERT 模型的訓練程式碼與 PyTorch 學習框架*
NGC 模型 Scripts與 TensorFlow 的 check-points
GitHub 上針對 TensorRT 優化的BERT 範例
Faster Transformer： C++ 語言 API、TensorRT 外掛與 TensorFlow OP
MXNet Gluon-NLP 包含 AMP 對 BERT 的支援方案(訓練與推論)
AI Hub 上針對 TensorRT 優化的BERT Jupyter 軟體說明註記
Megatron-LM：用來訓練超大型 Transformer 模型的 PyTorch 程式碼

*NVIDIA BERT建置方案是熱門 Hugging Face repo程式庫的優化版本。

NVIDIA 用 1,472 個 V100 GPU 加速 AI 語言模型 BERT 訓練效能

NZXT H710i 中塔機殼開箱測試 / 整潔大器依舊智慧裝置 V2 更便利

ASUS ROG GLADIUS II CORE 電競滑鼠 / 將經典輕量化，讓 ROG 帶你飛！

The Author

sinchen

AMD攜手Anthropic部署2GW AI運算平台，Helios整櫃系統正面挑戰NVIDIA

NVIDIA Vera Rubin 推升每瓦效能，為全球合作夥伴帶來最低詞元成本

AI 代理將創意工具帶給數百萬使用者

NVIDIA 發佈 CUDA Toolkit 13.4 開發者預覽版，首個可適用的 RTX Spark 開發包

NVIDIA 推出 Jetson Thor 新系列 T3000、T2000 模組，推動機器人與邊緣AI發展

日本政府、業界領袖與 NVIDIA 共同打造全球首座國家級 AI 基礎設施

主流無光！AITC KINGSMAN MASTER DDR5 16GBx2 6000MHz 開箱測試 / 簡約低調黑白雙色

Steam Deck 價格狂飆！受記憶體短缺影響，今年銷量暴跌 82%

能打能撩！ROG STRIX B850-A GAMING WIFI7 S NEO 開箱測試 / 吹雪主題塗裝、規格更完善