NVIDIA

購買 RTX 5090 需要知道的事:Neural Rendering、DLSS 4、Reflex 2、FP4、4:2:2

NVIDIA 新一代「Blackwell」架構,意旨在挑戰現代摩爾定律(Moore’s law)物理極限下的影像品質。也就是電腦繪圖的下一個新時代「Neural Rendering」,這麼說起來好像有點抽象但其實「DLSS」即是最佳的例子。

全新 GeForce RTX 5090 將在 1/24 日效能解禁,而 RTX 5080 則是在 1/30 日解禁效能,兩者同樣都在 1/30 日開賣,但在效能解禁之前先來跟大家分享一些有關於 Blackwell 架構與 RTX 5090 的升級重點:Neural Rendering、DLSS 4、Reflex 2、FP4、4:2:2 等。

Neural Rendering – RTX Neural Shaders

白話解釋「Neural Rendering」神經渲染,那就是在以往的傳統光柵化渲染的流程中,加入由 AI 神經網路所帶來的畫質提升、畫格生成、材質、材料、體積等生成技術,盡可能的達到更高畫質、更貼近真實世界的電腦繪圖影像。

 

當初 NVIDIA 最早開發出可程式化 Shaders 讓 GPU 可以加速各種應用,而且隨著 DirectX API 不斷的進步,直到 2018 年首次帶來即時光線追蹤的 DXR Ray Tracing,以及藉由 AI 加速的 DLSS 與後來加入的 FG 等技術。

今年推出的 RTX 5090 將支援「RTX Neural Shaders」,微軟 DirectX 也將支援 Cooperative Vectors,讓遊戲開發者可以更容易解鎖 Tensor Core 的運算效能。

簡單來說,RTX Neural Shaders 將會以 SDK 方式提供給遊戲開發者,開發者可藉由 Slang 渲染程式語言針對遊戲資料與渲染程式碼進行訓練,即時的藉由 NVIDIA Tensor Cores 來進行訓練神經網路的表現與權重,而且在訓練過程中經由神經網路生成的資料會與傳統資料比較,並在多個週期中細化神經網路的表現。

 

NVIDIA 也提到 RTX Neural Shaders 可以利用在:RTX Neural Texture Compression、RTX Neural Materials 與 RTX Neural Radiance Cache 等渲染應用當中。通過 RTX Neural Shaders 技術,可以獲得更出色的影像材質、材料與光線等表現,而且可以有效降低傳統渲染所需的記憶體使用量。

玩家可以參考下方這段影片展示 RTX Neural Shaders 在各種渲染應用中帶來的細緻影像呈現,並比起傳統方法有效降低記憶體使用量。

 

RTX Neural Radiance Cache 利用遊戲即時的資料來訓練神經網路,達到更準確、更有效率的間接照明與性能提升。

 

RTX Neural Faces 採用創新的方式來渲染人臉,以簡單的光柵化人臉加上 3D 資料輸入給 AI 模型,藉由 AI 模型生成出更自然的 3D 人臉。通過離線的 AI 模型訓練各種臉部的角度、光照表現、情緒與遮蔽等變化。

這個訓練流程可以使用真實的照片或 AI 產生的圖像來比對,並使建立擴散的 Diffusion Model,並經由 NVIDIA TensorRT 進行最佳化以即時生成 AI 臉部。

 

RTX Character Rendering SDK 除了 RTX Neural Faces 外,還有著新加入的 Linear-Swept Spheres(LSS)技術,這是 GeForce RTX 50 系列 GPU 加速功能,可以減少頭髮幾何在光追時所需的數量,使用 2 個球體來表現頭髮幾何,能夠有效降低光追時頭髮的資料量、降低 VRAM 使用提高整體 FPS 效能。

 

RTX Mega Geometry

這 30 年來遊戲內的幾何 Geometry 的數量呈現指數成長,也帶來了更細膩的遊戲世界,但是隨著光線追蹤加入遊戲場景時,每個層級的 LOD 物件所需的 BVH 光追運算的需求量也是指數增長,導致無法實現即時的影像呈現。

RTX Mega Geometry 可在 GPU 上智慧地大量更新同個 Clusters 內的 Triangles,能夠降低 CPU 的資源消耗並提高光線追蹤場景的效能與品質。

未來 Unreal Engine (NvRTX) 的 NVIDIA RTX 分支將最早支援 RTX Mega Geometry 功能,因此遊戲開發者可以利用 Unreal Engine 的 Nanite 幾何系統,並完全光線追蹤每個三角形。

 

DLSS 跨入 Transformers 模型

DLSS 通過 6 年的不斷學習,在遊戲、渲染運算等應用中大放異彩,而在 RTX 50 推出之際 NDIIA 也著手將 DLSS 使用的 CNN 模型升級成 Transformers 模型。

 

DLSS 將採用 Transformers 模型,能夠帶來更高的參數與運算量,並且在 SR 與 Ray Reconstruction 的畫面生成時有著更細緻的影像呈現。這功能則是所有 RTX GPU 都可採用。

 

DLSS 4 多畫格生成

DLSS 4 的 Multi Frame Generation 多畫格生成,利用 5 個神經網路運算提升遊戲的整體效能。

首先最原始的畫面採用 DLSS Super Resolution 與 Ray Reconstruction 的 Transformer 模型來提升渲染解析度,並通過下一代 DLSS Frame Generation 搭配 AI Optical Flow 兩個神經網路生成 3 張未來的遊戲影像。

而這技術是 RTX 50 GPU 獨家的原因在於,RTX 50 GPU 在硬體顯示引擎中有著 Flip Metering 功能,可以讓 DLSS 4 的多畫格生成有著更滑順的呈現。

 

DLSS 4 新技術,只需渲染 1/16 的影像,及可靠著 AI 進行 DLSS Super Resolution 與 Ray Reconstruction 生成 3/16 的影像,而這張 4/16 的影像可生成出未來的三格畫面,達到 15/16 的畫格全透過 AI 生成。

讓遊戲效能可達到 8x 倍的提升,而因為 DLSS 4 是 RTX 50 系列限定,所以當 RTX 5070 開啟 DLSS 4 之後確實可以與 RTX 4090 的 DLSS 3 一戰!

 

RTX 50 GPU 顯示引擎支援 Flip Metering,能夠更精準的控制顯示時間(display timing),提供精準且滑順的遊戲影像呈現,相比傳統的 CPU-based pacing,啟用 Flip Metering 後整體 Frame Times 可以有著更穩定的輸出。

 

通過 DLSS 4 多畫格生成技術讓原生渲染 2077 全光追僅 27 FPS 的遊戲效能可以達到 248 FPS 的性能約 7.8x 倍的效能提升。

 

DLSS Override 驅動強制啟動

DLSS 4 更新了整個 DLSS 的 5 大技術,像是 DLSS Multi Frame Generation 多畫格生成、DLSS Frame Generation 單畫格生成、DLSS Ray Reconstruction 光線重構、DLSS Super Resolution 超解析度與 Deep Learning Anti-Aliasing(DLAA)等功能。

首先 DLSS Multi Frame Generation 多畫格生成是 RTX 50 系列獨享的功能;而 DLSS Frame Generation 單畫格生成則有著強化升級,能夠提生效能與降低記憶體使用率,這功能 RTX 50 與 RTX 40 都支援;至於 DLSS Super Resolution 超解析度強化版與 DLAA 強化版,都是針對動態影像的穩定度與細節有提升,並支援所有 RTX GPU 系列(改用 Transformers 模型)。

 

玩家未來可通過 NVIDIA App 來強制開啟 DLSS Overrides 功能,但這功能應該是限定各個遊戲單獨設定,應該無法全域套用這改變。

 

NVIDIA Reflex 2 w/ Frame Warp

NVIDIA 低延遲技術 Reflex 2 採用「Frame Warp」新技術,這功能主要是演算法的改變,因此所有 RTX GPU 都能啟用這功能,但是 RTX 50 系列會優先支援。

簡單來說,NVIDIA Reflex 2 的 Frame Warp 功能,是指當 GPU 已經渲染好影像後隨著滑鼠移動,需要重新渲染整個畫面的空間,但套用「Frame Warp」技術則是直接移動原本渲染好的畫面,並通過前一幀的影像、顏色資料與深度資料,將空白的畫面 InPainting 填滿。

如此一來,啟用 Reflex 2 可帶來 75% 的延遲降低,首波會有 VALORANT 與 THE FINALS 兩款射擊遊戲支援,後續遊戲也會陸續更新。

 

Blackwell Neural Rendering 架構

NVIDIA 新一代 Blackwell Neural Rendering 架構,主要是優化 Neural AI 工作負載、降低記憶體使用量與提高電源效率。Blackwell 採用第五代 Tensor Core 具備 4000 AI TOPS FP4 算力,第四代 RT Core 具備 360 RT TFLOPS 並支援 Mega Geometry。

硬體內有著 AI 管理處理器,能更有效的同時處理 AI 模型與渲染;Blackwell SM 具備 125 TFLOPS 與 2 倍電源效率,搭配目前最快的 GDDR7 記憶體。

 

Blackwell SM 單元具備 Neural Shaders 功能,簡單來說 Ada SM 世代 Shaders 只會包含渲染、光追有關的指令,而在 Blackwell SM 可藉由上述提到的 Neural Shaders,讓原本渲染、光追再加上神經網路的指令。

 

Neural Shaders 包含多種指令的狀況下,會藉由 Blackwell Shader Execution Reordering,將神經網路的指令分配給 Tensor Cores,而原本的渲染、光追有關的指令一樣交給 Shader Cores 處理。

 

RTX 50 GPU 採用最新 GDDR7 視訊記憶體,採用 PAM3 編碼方式,能有更高的時脈更低的電壓表現。GDDR7 的資料傳輸率是當時 GDDR6 的兩倍,且每 bit 能源消耗也是 2x 倍的降低(更省電)。

 

Blackwell 第四代 RT Core 針對 Mega Geometry 功能打造,主要是支援 Triangle Cluster Intersection 與 Triangle Cluster Decompression,讓 Mega Geometry 在處理 BVH 光線追蹤時有更好的效能;以及針對光追頭髮技術加入 Linear-Swept Spheres(LSS)功能,讓 RT-Core 更好處理頭髮的光線追蹤。

藉由這些新功能的加入,Blackwell 第四代 RT Core 能有著 8x 倍 Ray Triangle Intersection 並且降低 75% 記憶體使用量。

 

Blackwell RTX GPU 採用 AI Management Processor(AMP),來有效處理更複雜的工作負載,像是遊戲搭配大型語言模型,像是 Project G-Assist 這類型的 AI 應用,通過 AMP 更有效的分配 RT Core、CUDA Core 與 Tensor Core 等工作。

 

Blackwell 採用進階 Power Gating 控制,分別獨立 Clock Gating、Power Gating 與 Rail Gating,Blackwell 有著更高的每瓦效能,因此可上一代 GPU 更快的進入 Low Power 模式,並加速進入 Deep Sleep 更長的時間,藉此節省功耗。

 

Blackwell 有著更快速的時脈反應速度,能夠依據動態負載快速的調整 GPU 時脈。

 

Blackwell 顯示與編碼引擎,首先顯示輸出一舉支援 DisplayPort 2.1 UHBR 20 與高速 HW Flip Metering 功能;影音編碼,則是第九代編碼引擎與第六代解碼引擎。

 

Blackwell 第五代 Tensor Cores 將原生支援 FP4 運算,能夠帶來 2x 倍的效能提升與只需一半的 VRAM 使用量,並有著相當接近的畫質(精準度)。

根據 Flux.dev 使用 FP16 精度、RTX 4090 運算,需要花費 23GB VRAM 與 15s 秒的時間生成圖片。但換成 FP4 精度與 RTX 5090 運算僅需 10GB VRAM 使用量與 5s 秒的生成時間。

 

越來越多新推出的相機、影像設備支援 4:2:2 的色彩採樣比率,雖然 4:4:4 可以獲得最佳的 RAW 檔影像,但相對的非常佔用空間,而 4:2:2 的壓縮比例在影像色彩、清晰度與銳利度上有著更好的呈現。

 

Blackwell 支援 4:2:2 編解碼功能,可同時播放(解碼)9 個 4K60 4:2:2 影像;並且在 4:2:2 編碼上 RTX 5090 可比 CPU 快上 11x 倍。

 

RTX 5090 具備 3 個 NVENC 編碼器並支援 AV1 UHQ 模式,也能夠有著更快的編碼輸出時間。2 月開始各大影音剪輯軟體也會陸續支援 RTX 50 的新功能。

 

NVIDIA GeForce RTX 50 系列 GPU,主要是針對 AI 時代的 Neural Rendering 強化 RTX Neural Shaders、RTX Mega Geometry,以及為 DLSS 帶來 Transformers 模型更新、DLSS 4 多畫格生成、Reflex 2 等新技術。

但 Neural Rendering 等新功能需要遊戲、軟體開發整合玩家才能受惠,而 RTX 50 對於玩家來說莫過於 DLSS 4 多畫格生成、硬體 Flip Metering、GDDR7 記憶體,以及新一代的影音編解碼引擎與 4:2:2 編碼比率支援。

對於 AI、影音剪輯、3D 渲染等工作者能有即戰力的升級,以及首波 75 款支援 DLSS 4(或 Override)的遊戲可獲得出色的效能提升,但玩家在意的非光追、非 AI 加速的實際遊戲效能表現,以及光追遊戲 AI 加速下與上一代 GPU 的差異,這則要等待效能解禁時再來與各位分享。

相關文章:
NVIDIA RTX 5090 / 5080 / 5070 Ti / 5070 效能預覽相比上代同級約 1.3-2x 倍效能升級

延伸影片閱讀:  
Previous post

NVIDIA RTX 5090 / 5080 / 5070 Ti / 5070 效能預覽相比上代同級約 1.3-2x 倍效能升級

Next post

台北國際電玩展將於年假前舉辦四天共有超過 350款熱門作品可盡情體驗

The Author

sinchen

sinchen

我是 Sinchen。