NVIDIA

GTC 2017 NVIDIA 發表 Volta 架構 Tesla V100 運算核心

今年 GTC 2017 會場中 NVIDIA  黃教主-黃仁勳先生,於活動中談及莫爾定律、多人 VR 應用 Project Holodeck、深度學習的 Ray Tracing 技術,以及首款基於「Volta」架構的 Tesla V100 運算核心。

Tesla V100 為 Volta 第一款運算核心產品,它擁有 21 億個電晶體核心,採用台積電 12nm FinFET 製程,晶片面積達到 815mm 平方;Tesla V100 具備 5120 個 CUDA 運算單元,運算能力達到 7.5 FP64 TFLOPS、15 FP32 TFLOPS;而 Tesla V100 有著新的 Tensor Core,可用於深度學習運算使用,並具備 120 Tensor TFLOPS 運算能力。Tesla V100 有著 16MB 快取,以及 16GB HBM2 記憶體,記憶體速度達到 900 GB/s,還有著 300GB/s NVLink 高速戶連能力。


↑ Tesla V100 實體。

 

而所謂的新「Tensor Core」,主要是提供深度學習新的 CUDA TensorOp 指令與資料格式。在上一代 Pascal 架構下,運算 4×4 陣列運算,例如求 D[FP32] = A[FP16]*B[FP16]+C[FP32] 的 4 維運算時,Pascal 僅能依照順序一次運算一組行*列後才能求出解答。

但在 Volta 架構下,可以在同一時間進行 4*4 的運算,換句話說 Pascal 一次只能運行單一行*列運算,而 Volta 可一次運行 4 組行*列運算,並提升了 12X 的 Throughput 運算輸出能力。


↑ Tensor Core。

 

總結來說,Volta 運算效能比起上一代 Pascal 架構,提升了 1.5X 於基本 HPC FLOPS 運算能力、提升 12X 深度學習訓練 Tensor FLOPS、提升 6X 深度學習推理 Tensor FLOPS 之速度。


↑ Tesla V100 效能總結。

 

而活動中,黃教主也提到 Tesla V100 當然可進行繪圖運算,因此展示與 SQUARE ENIX 透過 Tesla V100 進行即時影像渲染 Kingsglaive: Final Fantasy XV 展示。

而 NVIDIA DGX-1 將會搭載 Tesla V100 運算核心,有著 960 Tensor TFLOPS 運算能力、8 張 Tesla V100 運算核心、NVLink Hybrid Cube,將原本 TITAN X 需要 8 天的運算時間,變成只要 8 小時,而價格則是美金 $149,000 元。


↑ NVIDIA DGX-1。

 

另外,考量到有些企業可能沒有積架伺服器的資料中心,因此 NVIDIA 推出 DGX STATION,也就是接近桌上型電腦的尺寸,讓企業在部屬深度運算伺服器時更容易部屬。

DGX STATION 有著 480 Tensor TFLOPS 運算能力、4 張 Tesla V100 運算核心,並採用 NVLink,以及有著 3 DisplayPort、1500W 電源與水冷散熱,這台只要美金 $69,000 美元。

而 Tesla V100 亦有提供給 Hyperscale Inference 使用的 PCIe FHHL 運算卡(像是 DGX STATION 當中使用的運算卡),需要 150W 供電,而且比起 Skylake 有著 15-25X Inference 運算速度。


↑ DGX STATION。

 


↑ DGX STATION 內部(超帥)。

 


↑ Tesla V100 PCIe FHHL。

 


↑ Tesla V100 PCIe FHHL。

 

若各位有興趣了解,此次 GTC 2017 NVIDIA 發表會上的資訊,可參當時的直播影片:ustream.tv/gpu-technology-conference

延伸影片閱讀:  
Previous post

NVIDIA 將於 2017 年培訓10萬名深度學習開發人員

Next post

雙槽水冷 FlowOp 快速解熱 CM 酷碼 MasterLiquid Pro 140 一體式水冷

The Author

sinchen

sinchen

我是 Sinchen。