GTC 2017 NVIDIA 發表 Volta 架構 Tesla V100 運算核心
今年 GTC 2017 會場中 NVIDIA 黃教主-黃仁勳先生,於活動中談及莫爾定律、多人 VR 應用 Project Holodeck、深度學習的 Ray Tracing 技術,以及首款基於「Volta」架構的 Tesla V100 運算核心。
Tesla V100 為 Volta 第一款運算核心產品,它擁有 21 億個電晶體核心,採用台積電 12nm FinFET 製程,晶片面積達到 815mm 平方;Tesla V100 具備 5120 個 CUDA 運算單元,運算能力達到 7.5 FP64 TFLOPS、15 FP32 TFLOPS;而 Tesla V100 有著新的 Tensor Core,可用於深度學習運算使用,並具備 120 Tensor TFLOPS 運算能力。Tesla V100 有著 16MB 快取,以及 16GB HBM2 記憶體,記憶體速度達到 900 GB/s,還有著 300GB/s NVLink 高速戶連能力。
而所謂的新「Tensor Core」,主要是提供深度學習新的 CUDA TensorOp 指令與資料格式。在上一代 Pascal 架構下,運算 4×4 陣列運算,例如求 D[FP32] = A[FP16]*B[FP16]+C[FP32] 的 4 維運算時,Pascal 僅能依照順序一次運算一組行*列後才能求出解答。
但在 Volta 架構下,可以在同一時間進行 4*4 的運算,換句話說 Pascal 一次只能運行單一行*列運算,而 Volta 可一次運行 4 組行*列運算,並提升了 12X 的 Throughput 運算輸出能力。
總結來說,Volta 運算效能比起上一代 Pascal 架構,提升了 1.5X 於基本 HPC FLOPS 運算能力、提升 12X 深度學習訓練 Tensor FLOPS、提升 6X 深度學習推理 Tensor FLOPS 之速度。
而活動中,黃教主也提到 Tesla V100 當然可進行繪圖運算,因此展示與 SQUARE ENIX 透過 Tesla V100 進行即時影像渲染 Kingsglaive: Final Fantasy XV 展示。
而 NVIDIA DGX-1 將會搭載 Tesla V100 運算核心,有著 960 Tensor TFLOPS 運算能力、8 張 Tesla V100 運算核心、NVLink Hybrid Cube,將原本 TITAN X 需要 8 天的運算時間,變成只要 8 小時,而價格則是美金 $149,000 元。
另外,考量到有些企業可能沒有積架伺服器的資料中心,因此 NVIDIA 推出 DGX STATION,也就是接近桌上型電腦的尺寸,讓企業在部屬深度運算伺服器時更容易部屬。
DGX STATION 有著 480 Tensor TFLOPS 運算能力、4 張 Tesla V100 運算核心,並採用 NVLink,以及有著 3 DisplayPort、1500W 電源與水冷散熱,這台只要美金 $69,000 美元。
而 Tesla V100 亦有提供給 Hyperscale Inference 使用的 PCIe FHHL 運算卡(像是 DGX STATION 當中使用的運算卡),需要 150W 供電,而且比起 Skylake 有著 15-25X Inference 運算速度。
若各位有興趣了解,此次 GTC 2017 NVIDIA 發表會上的資訊,可參當時的直播影片:ustream.tv/gpu-technology-conference