NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹
NVIDIA 一出手,便知有沒有,新一代 Ampere 架構的 GeForce RTX 30 系列遊戲顯示卡,RTX 3090、RTX 3080 與 RTX 3070 發表,不僅帶來 2 倍的遊戲效能提升,更維持著與上一代相同的美金定價;但在效能解禁之前,先從技術面來窺探這代 Ampere 的重點特色。
內容目錄
Ampere 架構 – 第二代 RTX 兩倍 FP32、2x L1 頻寬與 2x 快取容量
面對 4K、8K 等高解析遊戲,玩家想要效能那就簡單暴力的兩倍 FP32 單元、2x L1 頻寬與 2x 快取容量;這代 Ampere SM 具備著 16 FP32 與 16 FP32 + INT 32 核心,因此一個時脈週期可執行 32 FP32 或 16 FP32 與 16 INT32 的運算,而 4 個 SM 分區達到 128 FP32 運算/clock,相較於 Turing 世代則是 2 倍的提升。
隨著 CUDA 運算單元的數量倍增,SM 也加倍 L1 快取頻寬、33% 快取容量提升與 2 倍快取分區大小;除此之外,Ampere 也帶來第二代 RT Core 核心,有著 2 倍 Triangle Intersection Rates 與第三代 Tensor Core,有著 2 倍 Math for Sparse Matrices 的能力。
第二代 RT Core – Ray Tracing:Motion Blur 硬體加速
NVIDIA 在 Turing 架構中,設計用來加速光線追蹤的「RT Core」核心,針對「Bounding Volume Hierarchy(BVH)」演算法進行加速,將需要計算光線追蹤的物件,以 Bounding Volume 切出許多區塊,重複 Bbox intersection 與接著的 Triangle intersection,直到趨近於計算光影的位置。
第二代 RT Core 當中,也大幅加速 Triangle intersection 的效能,並加入 Motion Blur 硬體加速,也就是在 Bbox 與 Triangle intersection 當中,導入 Interpolate tri position(時間)的參數,讓光線追蹤時可根據時間來變化,最終可渲染出具備動態模糊的光線追蹤影像,並達到 8x 快的 Ray Traversal。
第三代 Tensor Core – SPARSE DEEP LEARNING
深度學習藉由 Dense Matrix 資料去 Train 神經網路,而在第三代 Tensor Core 當中,NVIDIA 導入 Sparse Deep Learning 技術,並通過 Tensor Core 針對 Sparsity Optimized;最終結果可見,這代 GA100(A100)與 GA102(RTX 3080)的 SM 單元 Tensor Core 數量降至 4 個核心(TU102 SM 為 8)。
在 Tensor Core 數量降低的狀況下,即便是以往 Dense 實作 GA102(RTX 3080)也有著 128 FP16 FMA 的速度,比起上一代 RTX 2080S 僅 64 FP16 FMA,而當使用 Sparse 算法則可達到 2 倍的運算速度提升。
第三代 Tensor Core 通過 Sparse Deep Learning 可達到更好的運算效能,即便維持同樣算法下,也是上一代 Turing 架構的 2 倍效能提升。
極致工藝的 1.9X PERF/W 效能功耗提升
雖然不少玩家對於遊戲顯卡的 Ampere,採用 SAMSUNG 8N 客製製程頗有微詞,但最終若效能真如 2 倍效能提升同樣價格下,這樣的結果定能讓玩家心服口服。
NVIDIA 通過完整的工程設計與極致工藝,這代 Ampere 有著獨立的核心供電,以及記憶體與系統供電,這樣的設計讓 Ampere 有著 1.9x 每瓦效能提升,並且有著更低的核心溫度 78c 僅 30dbA 的噪音,這也是為何 NVIDIA 要在這代大動散熱設計的原因之一。
PAM4 調變提高 GDDR6X 記憶體頻寬與新 Coding, Algorithms
NVIDIA 攜手 Micron 應用應用創新的訊號轉移技術、四位準脈波振幅調變(four-level pulse amplitude modulation, PAM4),實現 GDDR6X 的突破性頻寬;在一個 250mV 的電壓 Steps 當中,採用 4-level PAM4 調變來乘載資料。
並為了達到最高傳輸效能,通過 Max Transition Avoidance Coding 確保「眼圖」能夠有明確的訊號,而根據不同板子等設計,採用新演算法 Training and Adaptation 找到最適合的取樣點。
HDMI 2.1 8K60Hz / 4K120Hz 與 AV1 硬體解碼
Ampere 世代升級 HDMI 2.1 規格,將能夠一線點亮 8K60Hz 或 4K120Hz 的顯示規格,並且支援 Display Stream Compression(DSC)可點亮 HDR 規格。
針對影像解碼這代則加入 AV1 解碼支援,而編碼功能則與 RTX 20 系列 GPU 相同。
RTX 3080 效能與工作負載 WOLFENSTEIN YOUNGBLOOD
這代 Ampere 以兩倍 SM、2 代 RT Core 與 3 代 Tensor Core,導入 GDDR6X 記憶體與全新散熱設計,讓 RTX 3080 對比上一代 RTX 2080 Super,可達到近乎 2 倍的遊戲效能增長,在維持同樣價格之下,這效能增長可說是相當有感。
而從工作負載來看,RTX 將以往只能透過 CUDA 核心硬算的功能,通過獨立 RT Core 負責光線追蹤,與之同時導入 Tensor Core 進行 DLSS 優化,並採用混合渲染工作,讓處理一幀影像的時間縮短至 12ms。
而 Ampere 在有著 2 倍 FP32 與 L1 快取與新一代 RT Core 加持下,讓這一幀只要 11ms 即可完成,對比上代 Turing 則需要 19ms;而隨著 DLSS 2.0 導入時間回疊技術後,更可將 Ampere 的時間縮短至 6.7ms。
最終從比較圖表來看,RTX 3080 在硬體 RT Core 運算與加上 DLSS 運算,可比起上代 RTX 2080 有著 1.7 倍的效能提升,若再加上 Async 運算則可達到 1.9x 提升。
RTX IO 與 DirectStorage API 解決開放世界遊戲大量資料讀取瓶頸
隨著開放世界遊戲越來越細緻,使得遊戲資料量暴增至 60GB 甚至 100GB 的遊戲大小;此外,儲存系統也從 HDD、SATA SSD、Gen3 NVMe SSD 到最快 Gen4 NVMe SSD 的速度提升,但是傳統 API 的運作模式,卻反而造成這效能增長的瓶頸。
換了 Gen3 NVMe SSD 為什麼遊戲讀得還不夠快?主要原因在於,傳統 API 在無壓縮情況下,CPU 將資料從儲存單位讀取至系統記憶體,接著再將資料複製到 GPU 記憶體,而無壓縮情況下 16 / 32 GB/s 是寫入的最快上限。
既然頻寬不夠那就壓縮資料,傳統壓縮資料讀取至 CPU 記憶體後,通過 CPU 進行解壓縮工作(以目前 CPU 效能來看還是夠),再將解壓縮的資料送給 GPU 記憶體,這也是為何 NVIDIA 要提出 RTX IO 的原因。
RTX IO 通過 DirectStorage API,可直接從 PCIe 讀取壓縮資料,並實現並行讀取 NVMe Queues 與高度優化 IO 指令,無須 CPU 進行解壓縮工作,並通過 GPU 進行解壓縮工作,其效能可操作 Gen4 SSD 的極限,並支援異步調度與最大化負載與最佳傳輸流。
NVIDIA 也提供自製的 Demo 展示 nvme GPU 解壓縮只需 1.62 秒即可完成,而 NVMe CPU 解壓縮則要 4.87 秒的時間。
而微軟也宣布 DirectStorage API 將在明年推出,這項技術主要是讓遊戲開發者,在設計遊戲時不用擔心過於大量的世界資料造成遊玩上的卡頓,而對於玩家則可真感受到無縫世界的順暢遊玩的爽感。
BFGPU、RTX 3080 與 RTX 3070 對比上代同階顯卡效能搶先看
同價位的 $699 的 RTX 3080 對上 RTX 2080,以及 $499 的 RTX 3070 對比 RTX 2070;在 4K 解析度當中,RTX 3080 幾乎是上一代的 2 倍效能提升,而且 Control 在 RTX On 之後可達到 80fps 的驚人效能。
至於 1440p 解析度下 RTX 3070 效能則是上一代的 1.7 倍提升,同樣在 Control RTX On 可達到 100fps 的效能表現。
當然 BFGPU RTX 3090 即是 TITAN RTX 的後繼者,效能上則約在 1.5-1.7x 的效能提升,此外這張卡比較偏向運算卡使用。
最佳散熱器流:縮小電路板、集中散熱、雙扇配置 – 更安靜散熱更好
NVIDIA 新一代 GeForce RTX 3080 與 RTX 3090 採用新一代散熱設計,或許不少玩家覺得這樣的設計,使得 PCIe 電源線卡在中間不是相當美觀,但這設計重點都是為了解決:散熱、噪音。
上一代 RTX 顯示卡,雖配置雙風扇但氣流通過鰭片後,直接撞在 Vapor Chamber、電路板、背板之上,使得廢熱散不開的狀況;這一代 RTX 顯示卡,極致縮小電路板與元件間的配置,再通過 Vapor Chamber 結合熱導管,將廢熱引導至卡的右側。
右側配置抽風扇,將冷空氣從顯卡上方抽起,替熱導管解熱;而顯卡左側同樣配置風扇,這顆同樣抽起冷空氣,再通過顯卡後方排出熱氣。
這樣的改變,讓 RTX 3080 散熱器對比上一代 RTX 2080 在同功耗下,可以更安靜 10dBA、溫度更低 20°C 的表現;而 RTX 3090 則有著 20dBA 的噪音降低與 30°C 的降溫能力。
NVIDIA GeForce RTX 30 系列報導
NVIDIA 新一代 GeForce RTX 3090 / 3080 / 3070 遊戲卡皇即位, 效能倍升, 同樣價格
NVIDIA GeForce RTX 3090 / 3080 / 3070 重點規格整理
NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹
Fortnite, Cyberpunk 2077, Watch Dogs「RTX On」、8K 先驅與電競 REFLEX
NVIDIA Broadcast 通過 AI 降噪、虛擬背景、自動取景