我 4K 百幀!NVIDIA GeForce RTX 4090 顯示卡測試報告 / 創作專武 遊戲神兵
創作專武,遊戲神兵,我就是 NVIDIA GeForce RTX 4090。NVIDIA 新一代 Ada Lovelace GPU 架構,首款旗艦卡后正式推出,不僅製程升級、時脈飛升,更帶來 Tensor Core 與 RT Core 升級,以及新一代 DLSS 3 的 AI 補幀技術開啟 GPU 加速大時代,同時具備 AV1 雙編碼引擎,不僅滿足遊戲玩家 4K 百幀的夢想,更是 3D 渲染、創作、模擬、運算上的專武神兵,讓我們從架構、規格與效能來檢視這新一代卡后的升級體驗。
內容目錄
拜見新一代旗艦卡后 Ada Lovelace、NVIDIA GeForce RTX 4090
NVIDIA 新一代 Ada Lovelace 微架構、RTX 40 系列,首發旗艦 GeForce RTX 4090 將於明日 10/12 日正式販售,美金定價 $1599 元。接著 GeForce RTX 4080 16GB 與 12GB 的兩張新卡也將在 11 月推出,美金定價為 $1199、$899 元。
↑ Ada Lovelace – A Quantum Leap.
這代 NVIDIA 改用 TSMC 4N 客製製程與 Ada Lovelace 微架構,讓 GPU 可以擁有更多的 SM 單元,進一步的增加 CUDA、Tensor Core 與 RT Core 等數量,同時也讓 TMUs、ROPs 等單元數量提升,再加上 2.5GHz Boost 的超高時脈,讓 RTX 4090 可用 2-4x 倍快的效能超越 RTX 3090 Ti。
GeForce RTX 4090 擁有著 16384 個 CUDA 核心、512 個 4 代 Tensor Core 與 128 個 3 代 RT Core,以及 2.52 GHz Boost 時脈與 24GB GDDR6X 記憶體。以超狂的規格同時滿足專業創作、渲染與旗艦遊戲玩家的需求,這張台幣定價 NT$ 56,990 元起的超狂顯示卡。
而 GeForce RTX 4080 則有兩種規格,RTX 4080 16GB 有著 CUDA 9728 個、Tensor Core 304 個、RT Core 76 個、2.51GHz Boost 時脈,台幣 NT$ 42,990 元起;而 RTX 4080 12GB 則是 CUDA 7680 個、Tensor Core 240 個、RT Core 60 個、2.61GHz Boost 時脈,台幣 NT$ 31,990 元起。
↑ RTX 4090 會取代 RTX 3090 / Ti 的產品,而 RTX 4080 則是取代 RTX 3080 12GB / Ti 的產品。
若從美金定價來看確實這代 RTX 4080 價格較高,但若以目前 NVIDIA 給出的效能依據是 RTX 4090 比 RTX 3090 Ti 快 2-4x 倍,而 RTX 4080 則比 RTX 3080 Ti 快 2-4x 倍。因此以性能價格來看 RTX 4090 性價比肯定優於 RTX 3090 Ti,甚至 RTX 4080 12GB 效能就能與 RTX 3090 Ti 抗衡的狀況下,也讓這代 RTX 4080 價格跟著提升。
到底為何 NVIDIA 能這麼狂的每代效能 2-4x 倍的提升,除了製程提升、時脈飛升外,更重要的是 Ada Lovelace 新架構所帶來的新技術 SER、Displaced Micro-Mesh Engine、Opacity Micromap Engine,以及 Optical Flow Accelerator 與 DLSS 3 的 AI 補幀,這才是 NVIDIA 最狂的技術實力。
Ada Lovelace:製程時脈升級、精進光線追蹤與雙 AV1 Encode
Ada Lovelace 微架構的完整核心 AD102 GPU,達到 763 億個電晶體、總共有著 12 組 GPC、72 組 TPC 與 144 組 SM 單元,也就是說總共有著 18432 個 CUDA、576 個 Tensor Core 與 144 個 RT Core。而這代目前的旗艦 RTX 4090 也不過 128 組 SM 單元下,意味著未來還是有 RTX 4090 Ti 能超越目前旗艦產品的可能。
Ada 除了改進 SM 單元外,亦有著 GDDR6X 高速記憶體、第 4 代 Tensor Cores 提升 AI 推論效能、第 3 代 RT Core 提升光線追蹤的質量,以及第 8 代影音編碼器支援 AV1 硬體編碼功能,還有著 DLSS 3 所帶來的 2-4x 的效能升級。
ADA 第 4 代 Tensor Core
Tensor Core 是專注於高效能的運算核心,這對於深度學習的訓練與推論所需的矩陣計算帶來突破性的效能提升,核心針對「矩陣乘法」與「積累數學運算」(accumulate math operations)所設計,並在 AI 與 HPC 的應用中扮演相當重要的角色。
相較於 Ampere 架構,Ada 能夠帶來 2x 倍的 FP16、BF16、TF32、INT8 與 INT4 的 Tensor TFLOPS 效能提升,同時加入 Hopper 架構的 FP8 Transformer Engine,能提供 1.3 PetaFLOPS 的 Tensor Core 效能。
ADA 第 3 代 RT Core 與新光追技術
Ada 架構的第 3 代 RT Core 能帶來 2x 倍快的 Ray-Triangle Intersection 輸出效能(相較於上代 Ampere)。而新加入的「Opacity Micromap Engine」,讓物件有著 Micro-Triangles 的 Virtual Mesh,可用來記錄物體的不透明狀態,有著不透明、透明或未知等三種狀態。
↑ ADA 的 Opacity Micromap Engine 能夠讓物體有著 Virtual Mesh 紀錄不透明狀態。
若光線追蹤至不透明的表徵時則記錄「擊中」並返回,而若是透明的區域則是直接忽略光線追蹤,至於未知的區域則要交給 SM 通過程式化的 Shader 來處理光線交集。Opacity Micromap Engine 就是用來評估不透明遮罩(opacity mask),也就是正三角形遮罩使用重心坐標報告「光線 / 三角形」的交集。
通過 Opacity Micromap Engine 能直接進行幾何的 alpha-test,降低 Shader 的 alpha 運算負擔,而這功能可讓開發者繪製更複雜的形狀、半透明的物件,像是蕨類植物、柵欄等物體,並透過 Ada RT Core 進行有效的光線追蹤。
↑ 像是遊戲畫面的煙霧,利用 Opacity Micromap Engine 技術,能夠降低光線追蹤的複雜度。
↑ 上圖左是原始光線追蹤量,顏色越深計算的光線就越多,但明明煙霧效果有著相當多是半透明的狀態,卻導致整體效能降低;圖右則是套用 Opacity Micromap Engine 後所需的光線追蹤計算量,藉此提升光線追蹤在處理複雜物件、透明效果時的效能。
此外,Ada RT Core 加入「Displaced Micro-Mesh Engine」,用來解決越來越複雜的幾何場景,所造成的光線追蹤的運算負擔,以及降低 BVH 資料的記憶體 / 儲存所需的容量。Displaced Micro-Mesh 是利用幾何空間的相關性,將複雜幾何以基準三角點加上位移方向來表示。
如此一來在光線追蹤時可避免大量的 BVH 結構的產生,並有著更有效的 BVH traversal 的效能,而在光柵化時使用既有的 Micro-Mesh LOD 來呈現幾何原有的樣子。也就是說 Displaced Micro-Mesh Engine 使用簡單的 BVH、基準三角點加上位移方向地圖,就能夠創造高細緻度的幾何光線追蹤。
↑ 要能細緻的利用光線追蹤來渲染螃蟹外殼,就會需要將螃蟹細分為 1024 個 Triangles,再利用 BVH 算法去計算每個位置的光線變化,這會產生非常大量的 BVH 資料與效能損耗。
↑ Ada 的 Displaced Micro-Mesh Engine,是將複雜的表面以 1 個 Triangles 加上位移方向地圖,如此一來只需一個簡單的 BVH 計算後,在利用位移方向地圖來推算出每個位置的光線變化。
這代 Ada 加入新的「Shader Execution Reordering」(SER) 功能,可以動態的排列 Shader 處理光線達到更好執行效益。
簡單來說,當一個場景計算光線追蹤,從主要光線開始計算碰到的物件,接著主要光線產生的反射、環境漫射則會進行第二次光線追蹤,但第二次的光線追蹤則是亂序的狀況,也導致第二次光線追蹤的 Shader 執行上效益不佳。
↑ 簡單來說 SER 能夠優化光線追蹤的 Shader,讓運算更有效率。
因此 Shader Execution Reordering 加入光線追蹤的流水線後,能夠重新排序、群組相同的第二次光線追蹤擊中的 Shader,讓光線追蹤的 Shader 有更好的效率。SER 可提供 2x 倍的 RT Shader 效能提升,而且在 Cyberpunk 2077 以 Overdrive Mode 執行時,有著 44% 效能增長來至 SER 的成果。
↑ 這張圖比較好解釋 SER 功用。第一道光線追蹤的計算是循序的狀態,但第二道光線追蹤則包含反射、折射、漫射,因此 Shader 在計算時因為亂序的關係無法有最佳的效能,通過 SER 優化後即可大幅提升效能。
大加速時代 DLSS 3 與 Optical Flow Accelerator
隨著遊戲有著豐富的物件、更複雜的幾何、美輪美奐的世界,以及基於物理擬真的光線追蹤等技術堆疊下,傳統的 GPU 渲染效能以跟不上當代遊戲的需求,也因此 NVIDIA 最早開發 AI 深度學習加速的 DLSS 技術,這也讓各家 GPU 製造商,推出自有的加速技術,也正式開創 GPU 的大加速時代。
↑ 2018 年問世的《戰地風雲 V》導入光線追蹤時,每個像素僅 39 道光線追蹤量,但是 4 年後《電馭叛客 2077》每個像素能達到 635 道光線追蹤量,這運效能可是一個巨大的變化。
RTX 40 獨有的「DLSS 3」則是基於 DLSS 2 的技術下,加入「AI 補幀」的概念,也就是納入 Optical Flow Accelerator 的功能。Optical Flow 是電腦視覺所使用的光流法,用來計算連續的影像中,每個像素的移動方向與移動量。
DLSS 3 技術則需要遊戲引擎提供:較低解析度的渲染畫面與 Motion Vectors,通過 DLSS 的深度學習網路推論出高解析度的影像,並將影像提供給 Optical Flow Accelerator 計算每個像素的移動方向與移動量,最後通過 Optical Multi Frame Generation 產生出 AI 補幀的畫面。
↑ DLSS 3 利用 Optical Flow Accelerator 計算畫面像素的光流移動方向與向量,藉此利用 Optical Multi Frame Generation 的 AI 推論出 Frame2 的影像,白話就是 AI 補幀。
↑ AI 補幀為何需要 Optical Flow Accelerator?主要原因在於,上圖的物件可通過遊戲引擎的 Motion Vectors 得知運動方向,但是地面上的陰影並非物件的狀況下,會缺少陰影的運動向量,這時在補幀時就會出現問題。
↑ 通過引擎的 Motion Vectors 與 Optical Flow 的像素向量的結合,可以產生出更穩定的 AI 補幀。
當遊戲開啟 DLSS 3、Frame Generation 並通過 Reflex 降低延遲後,遊戲畫面的 Frame1 會有 1/4 的像素是遊戲渲染的,剩下的 3/4 則是 DLSS Super Resolution 推論出的像素,接著到下一個畫面 Frame2,這張則會有 DLSS Frame Generation 產生,因此 Frame1 + Frame2 的畫面總共有 7/8 是由 DLSS 3 的 AI 所產生的畫面。
↑ Frame1 由引擎渲染低解析度的影像(1/4)剩下的 3/4 影像則是 DLSS 產生,接著 Frame2 則是完全由 DLSS Frame Generation 畫出,因此 2 個 Frame 總共有 7/8 是由 DLSS 的 AI 推論而生。
DLSS 3 通過 AI 補幀能夠提供 2-4x 倍的遊戲效能提升,同時維持著與原生渲染相似的畫質,但是也會增加遊戲的整體延遲,因此 NVIDIA 強制 DLSS 3 包含 Reflex 技術,藉由取消 Render Queue 讓 CPU 處理完 GPU 立刻接手渲染,達到更低的系統延遲效果。
因此 DLSS 3 結合 AI Super Resolution、Frame Generation 與 ReFlex 等技術,靠著第 4 代 Tensor Core、Optical Flow Accelerator,以及 NVIDIA 用來訓練 AI 的超級電腦,滿足次世代遊戲玩家 4K100fps 的極致效能。
DLSS 3 需要 Ada 的 Optical Flow Accelerator 硬體才能啟用 Frame Generation 達到應有的效能提升,因此 DLSS 3 目前是 RTX 40 系列專屬的功能,而未來支援 DLSS 3 的遊戲也會相容 DLSS 2,也就是 DLSS Super Resolution,而 NVIDIA Reflex 則是 GTX 900 以上都支援。
↑ DLSS 3 = Super Resolution + Frame Generation + Reflex。而原本的 DLSS 2 則是只需要 Super Resolution 即可。
雙 AV1 影音編碼、Portal RTX 11 月推出
創作方面 Ada Lovelace 除了上述的升級外,還搭載雙第 8 代 NVENC 編碼引擎,主要是加入 AV1 的影音編碼功能,至於解碼還是第 5 代 NVDEC 與 Ampere 相同,畢竟 NVDEC 已經完整支援各式影音解碼的能力。
RTX 40 系列搭載雙第 8 代 NVENC 編碼引擎,主要納入 AV1 影音編碼的功能,這也是未來主流的影音串流編碼比起 H.264 有更好的訊噪比,也就是說在相同解析度、碼率的比較下,AV1 的影像畫面會優於 H.264 編碼。
↑ AV1 影音編碼能有更好的畫質與效能提升,這也是未來串流的主要影音編碼。
↑ 左 AV1、右 H.264 同樣 8Mbps 碼率下,地板的細節差異相當明顯(4K SBS 比較)。
↑ 左 AV1、右 H.264 同樣 8Mbps 碼率下,馬路的紋路差異清晰可見(4K SBS 比較)。
而雙第 8 代 NVENC 編碼引擎,要能獲得 2x 倍的影片輸出效能提升,需要影片編輯軟體支援像是 DaVinci Resolve、Voukoder、簡映都會在第一時間支援 RTX 40 的雙編碼引擎,至於主流的 Adobe Premiere Pro 則要等日後更新了。
像是錄製 8K60 影像時可以利用雙 Encoder 每個負責 7680 x 2160 的解析度,獲得更好的效能提升。
除了 AV1 編碼與雙編碼引擎外,NVIDIA Omniverse 也支援的 DLSS 3 新技術,以及 RTX Remix 的神級遊戲 Mod 的製作工具。
但對於玩家來說,經典遊戲 Portal With RTX 將於 11 月推出免費 DLC,支援 Vulkan RT 相容的 GPU,當然最佳體驗就是使用 RTX 40 與 DLSS 3。
↑ Portal With RTX 將於 11 月推出免費 DLC;RTX Remix 則會盡快推出。
NVIDIA GeForce RTX 4090 創始版顯示卡開箱 / 背面即是正面 經典再強化
Ada Lovelace 卡后 NVIDIA GeForce RTX 4090 創始版,維持著 Ampere 世代開創的顯卡美學新設計「背面即是正面」、「少但更好」GeForce。創始版採用堅固、耐用的鋁合金打造 X-Frame 框架,表面採用陽極氧化處理帶來高級的質感與金色的金屬質感。
而框架內則是填滿散熱鰭片,內部則是均溫板替 GPU、VRAM 散熱,再藉由熱導管將廢熱引導至散熱鰭片。而這代 RTX 4090 創始版採用更大的 116mm、FDB、7 扇葉的雙風扇,並且增加顯卡厚度至 3-Slot、減少顯卡長度至 30.48cm(12 inch)。
這代均溫板也有著優化,並針對記憶體有著專屬的切口,讓均溫板可以更均勻的與 GPU 接觸,同時記憶體的導熱墊則降低至 1.5mm 帶來更好的熱傳導效應;這代散熱器可支援到 650W Qmax 的解熱能力。
↑ 背面即是正面的經典,RTX 4090 與顯卡前方穿透式散熱氣流。
↑ 原本的正面也以金屬框架填滿散熱鰭片與後方風扇,帶來獨特的美學設計。
RTX 4090 全面換上 PCIe 12+4 Pin(12VHPWR)的供電介面,一線最高可傳輸 600W 的功耗外,也讓新卡裝機時整線可以更佳美觀。當然創始版也提供了 1 條 12VHPWR 轉 4 個 PCIe 6+2pin 的連接線。
一般電源建議至少連接 3 個 PCIe 6+2pin 來轉換,若是新買電源建議選擇符合 ATX12 V3.0 與 EPS12V V2.92 規範的新電源,如此一來就可以將有點醜的沖天炮收起來,只要一條 12VHPWR 連接線即可提供顯卡所需的供電。
↑ RTX 4090 使用 PCIe 12+4 Pin(12VHPWR)供電。
↑ 配件中的 12VHPWR 轉 4 個 PCIe 6+2pin 連接線(沖天炮)。
↑ 專業的新電源只要一條線即可滿足 RTX 4090 供電需求。
RTX 4090 顯示輸出提供 1 個 HDMI 2.1a 支援 VRR、4K120Hz / 8K60Hz HDR,以及 3 個 DisplayPort 1.4a DSC 支援 12-bit 4K240Hz HDR / 12-bit 8K60Hz HDR 等輸出能力,最多同時連接 4 個螢幕輸出。
NVIDIA GeForce RTX 4090 創作影音輸出、GPU 渲染效能測試
此次測試包含創作 Adobe Premiere Pro 2020、DaVinci Resolve 18 與 Blender等創作測試,遊戲則以 2160p、1440p 解析度、特效全開測試電競、AAA 遊戲與光追遊戲的效能,並加入額外的 DLSS 3 前期測試,讓玩家能全面瞭解 RTX 4090 為何強悍(這麼貴)。
比較效能的顯卡分是 NVIDIA GeForce RTX 3090 創始版。
測試平台
處理器:Intel Core i9-12900K
主機板:ASRock Z690 PG Velocita
記憶體:CORSAIR DOMINATOR PLATINUM RGB DDR5 32GBx2 5200MHz
顯示卡:NVIDIA GeForce RTX 4090 創始版、NVIDIA GeForce RTX 3090 創始版
系統碟:Solidigm P41 Plus 1TB PCIe 4.0 SSD
散熱器:ASUS ROG STRIX LC II 280mm
電源供應器:Seasonic PRIME PX-1000
作業系統:Windows 11 Pro 21H2 64bit、Resizable BAR On
驅動版本:NVIDIA 521.90
GPU-Z 已可檢視 NVIDIA GeForce RTX 4090 資訊,採用 4nm 製程的 AD102 GPU,有著 16384 個渲染 CUDA 核心,以及 24576 MB GDDR6X(Micron)記憶體,而 GPU 預設時脈 2235 MHz、Boost 2520 MHz。
↑ DXVA Check 解碼器測試,目前所有影音編碼都支援各解析度的解碼。
DaVinci Resolve 18 純粹通過 GPU 加速的影片剪輯程式,更包含強大的色彩校正與特效功能,並且直接使用 CUDA 核心運算,讓影片剪輯的回放與輸出都有著相當好的性能。測試版本則包含支援 NVIDIA AV1 編碼功能。
這段測試分為兩部分,第一段測試的專案使用 4K Blackmagic RAW 影像,並分別有著 Wedding_Heavy_Styles 時間軸,這段影片使用非常多的 Resolve 效果,像是 OFX: Light Rays / Glow / Sketch 等,輸出相當高風格的影片類型。
Bride_FaceRefine_Selective_Color 則使用 Face Refinement 做人臉的追蹤,並將主體新娘使用顏色凸顯;50% Retime 與 Optical Flow – Enhanced Better 都使用 Optical Flow 技術降低影像 50% 速度。
SuperScale2x 4K Source 使用 4K ProRES 來源影片製作 2x Zoom In 主體的 4K 影片輸出;SuperScale4x HD_Source 則是使用 HD H.264 來源影片,利用 Resolve Super Scale 輸出成 4K 影片。
這部分 RTX 4090 效能可說是非常突出,尤其在 Optical Flow 測試中節省了近 2 倍的輸出時間,讓創作者有著更快的輸出效能。
第二段測試為雙 NVENC 編碼的 AV1 與 HEVC 編碼測試,測試專案是一段 44 秒的小短片,來至於 Blender Open Movie Project《Tears of Steel》,並有著 8k Prores442HQ 30FPS 與 4K Prores422HQ 30FPS 的影片,可用來測試輸出為 HEVC、AV1 編碼的效能。
輸出設定主要是使用 NVIDIA Encoder、Quality: Restrict to 80000 Kb/s、Encoding Profile: Main、Rate Control: Constant Bitrate、Preset: Faster、Tuning: High Quality、Two Pass: Disable 等輸出設定。
效能上在 4K30 輸出時 RTX 4090 效能與 RTX 3090 差異不大,但在處理 8K 輸出時,RTX 4090 的雙編碼引擎讓 HEVC 輸出時間加速了 2x 倍之多,而且 AV1 編碼的速度也相當快,可見只要影音編輯軟體支援 RTX 40 雙編碼引擎,即可獲得相當出色的編碼效能成長。
↑ DaVinci Resolve 18 雙 NVENC 編碼測試,時間越短越好。
Adobe Premiere Pro 2022 影音剪輯軟體,採用自家開發的 Mercury Playback Engine GPU 加速,可藉助 GPU 的編碼引擎加速影像輸出速度。測試使用的專案 1 為公司 1080p60fps 的開箱影片;而 BigMix4K 專案其採用 3 段 FinalAdjusted_MPE 1920×1080 的影像組成一段 4K 時間軸,進行 H.264、HEVC 格式輸出。
(測試的 Premiere Pro 2022 還未支援 RTX 4090 雙編碼功能。)
效能上 RTX 4090 依舊能有著比 RTX 3090 還要快的輸出速度,但不像支援的 DaVinci Resolve 可以有著驚人的輸出時間縮短。因此,這測試主要提供給各位參考。
↑ Adobe Premiere Pro 2022 輸出,時間越短越好。
Blender 是跨平台、開放源碼的 3D 創作工具,支援著各種 3D 作業:Modeling、Rigging、Animation、Simulation、Rendering、Compositing 與 Motion Tracking 等。而測試,則以 Blender Benchmark 3.3.0 進行 Demo 專案的渲染工作測試。
Blender Benchmark 3.3.0 測試,可見 RTX 4090 在 3 個場景的每分鐘 Sample 數量(效能)高於 RTX 3090 約兩倍之多,展現出 Ada Lovelace 的 3D 創作實力。
V-Ray Benchmark 是由 Chaos Group 所開發,V-Ray 是基於物理法則所設計的光線渲染軟體,而此工具可分別針對 CPU 與 GPU 進行光線追蹤的渲染圖像的運算測試。
V-Ray 不論是 GPU RTX 或者 CUDA 計算下,RTX 4090 以 1.9x 倍的 Vpaths 數量贏過 RTX 3090。
SPECviewperf 2020 基於專業應用所開發的標準繪圖效能測試工具,測試各式專業的計算機圖形軟體如:3ds Max、Catia、Creo、Energy、Maya、Medical、SNX、SolidWorks 等繪圖測試與工程模擬。
測試為 1920 x 1080 解析度、成績為 FPS。這效能表現則根據使用的工具有關,RTX 4090 的效能提升約在 1~2.9x 倍之間,端看測試的程式與情境。
NVIDIA GeForce RTX 4090 – 3DMark 跑分效能測試
3DMark Fire Strike 效能測試,為主流的 DirectX 11 API 的測試情境,分別測試 1080p、Extreme 1440p 與 Ultra 2160p 的效能。
RTX 4090 讓 Fire Strike 達到 54174 分的成績,而從 Ultra Graphics 的成績比起 RTX 3090 快了 2x 倍的效能提升,而 Extreme 則是 1.8x 倍、FHD 1.6x 倍。
3DMark Time Spy 則是採用 DirectX 12 API 所設計的測試情境,同樣是鎖定在 AAA 遊戲等級,分別測試 1440p 與 Extreme 2160p 的效能。
RTX 4090 在 Time Spy 達到 32638 分的總成績,比起 RTX 3090 分別有著 1.8x、1.9x 倍的效能提升。
針對光線追蹤測試,3DMark Port Royal 在 AAA 遊戲中的場景中加入光線追蹤功能,考驗著新一代 GPU 對於硬體光線追蹤加速的能力。同時 DXR 測試,則是使用 DirectX Raytracing API 進行的功能測試。
RTX 4090 即便不用 DLSS 也能有著相當驚人的光追效能,Port Royal 達到 119 FPS、DXR 138 FPS 的成績,對比 RTX 3090 同樣帶來 1.95x、2.44x 倍的效能提升。
3DMark DLSS Feature Test 可針對 DLSS 3、DLSS 2 進行效能測試,設定為 3840 x 2160、Performance 加速下,RTX 4090 在 DLSS 2 可獲得 138 FPS / 2.3x 倍的效能提升,DLSS 3 使用 AI 產生畫面後可達到 193 FPS / 3.3x 倍的效能提升。
後續會使用遊戲來實測 DLSS 3 的效能表現。
↑ 3DMark DLSS Feature Test,越高越好。
NVIDIA GeForce RTX 4090 – 4 款電競遊戲效能測試
4 款電競遊戲:《虹彩六號:圍攻行動》、《英雄聯盟》、《APEX 英雄》與《CS:GO》等,都是重技巧、團隊的戰術競技射擊、DOTA 類型的遊戲,因此遊戲畫質、細節不高的狀況下,遊戲 FPS 也都是平均百幀以上的表現。測試以 2160p、1440p、特效最高設定進行。
對於電競遊戲來說 RTX 4090 帶來的效能增長並不明顯,畢竟 RTX 3090 在 2160p 也能提供電競遊戲相當強的效能,測試中僅《虹彩六號:圍攻行動》有著較明顯的效能提升,其餘 3 款則是相對接近。
NVIDIA GeForce RTX 4090 – 11 款遊戲效能測試
11 款 AAA 遊戲平均效能,同樣測試 2160p、1440p、特效全開進行測試,這段測試僅 F1 使用光追,其餘遊戲無光追下、無 DLSS 加速,測試 GPU 的實際傳統渲染遊戲效能。
遊戲測試名單有入門的《F1 2021》、《極限競速 地平線 5》賽車遊戲、《古墓奇兵:暗影》、電影遊戲《死亡擱淺》、《戰爭機器 5》、《全境封鎖 2》、《地平線:期待黎明》,以及吃重效能的《邊緣禁地 3》、《刺客教條:維京紀元》、《碧血狂殺 2》與《戰神》等測試。
RTX 4090 在 2160p、AAA 遊戲當中有著相當不錯的效能提升,11 款遊戲平均達 148 FPS,比起 RTX 3090 平均 89 FPS,可達到平均約 1.7x 倍的效能升級。
但在 1440p 解析度下則是 RTX 4090 平均 200 FPS、RTX 3090 平均 143 FPS 約 1.4x 倍效能提升。
可見 RTX 4090 在主力 2160p 解析度下,不靠著 DLSS 加速即可帶給玩家約 1.7x 倍的效能提升,若以百分比表現則是有著平均 66% 的效能升級。
NVIDIA GeForce RTX 4090 – 9 款光追遊戲測試
9 款光追 DXR 遊戲測試,則使用最熱門的《電馭叛客 2077》、《控制》、《看門狗:自由軍團》、《戰慄深邃:流亡》、《漫威蜘蛛人重製版》、《漫威星際異攻隊》、《鬼線:東京》、《極地戰嚎 6》與《惡靈古堡 村莊》等遊戲進行測試。測試 2160P、1440p 解析度,特效 / 光追最高設定外,也會啟用 DLSS 加速,詳細設定請參考圖表說明。
RTX 4090 在《電馭叛客 2077》DLSS 2 加速下可達到平均 110 FPS,比起 RTX 3090 平均 60 FPS 還要高出許多;同樣在《控制》與《鬼線:東京》等光追遊戲上,都能感受到 RTX 4090 所帶來的強勁光追遊戲效能升級。
RTX 4090 在 2160p、9 款光追遊戲測試下平均可達 132.3 FPS,相較於 RTX 3090 則有著平均 82 FPS,光追遊戲效能提升約在 1.6x 倍、平均 65% 的升級量。
至於 1440p 則是,RTX 4090 平均 169 FPS、RTX 3090 平均 119.8 FPS,約 1.4x 倍、41% 效能提升。
NVIDIA GeForce RTX 4090 – DLSS 3 效能實測
這代 Ada Lovelace GPU 更新的一大重點「DLSS 3」,在測試期間 NVIDIA 有提供預先釋出的測試版本,主要讓媒體可以一覽 DLSS 3 所帶來的效能提升。測試的遊戲包含《微軟模擬飛行》、《瘟疫傳說:安魂曲》、《Unreal Engine 5: Lyra》、《F1® 22》、《Unity Enemies》、《電馭叛客 2077》與《逆水寒 Justice Online》,使用 2160p 解析度、光追最高設定。
DLSS 3 遊戲設定中,會有明確的「Super Resolution」與「Frame Generation」的選項,必須同時啟用兩這兩個功能才能使用 DLSS 3 的技術,而 RTX 30 / 20 系列的玩家,則只能開啟 Super Resolution 功能,Frame Generation 會無法啟用。
RTX 4090 通過 DLSS 3 加速,《電馭叛客 2077》可達到平均 140 FPS 約 3.5x 倍的性能提升;而 Unity 引擎釋出的 Enemies 電影動畫,在即時光追渲染下靠著 DLSS 3 亦可達到 103 FPS 約 3.68x 倍的效能升級。
RTX 4090 在 DLSS 3 Performance 設定下,可達到約 1.9x~4.7x 倍的效能提升,平均下來約在 2.95x 倍,這也符合 NVIDIA 發表時所說的 2-4x 倍效能的表現。
但同樣需要等待遊戲支援 DLSS 3 技術,才能讓 RTX 40 系列的玩家受惠,但由 RTX 4090 初始開拓 DLSS 3 的支援性,等到未來中階、入門的 RTX 4060 問世時,玩家就能獲得更好的遊戲加速效能升級。
NVIDIA GeForce RTX 4090 功耗與溫度測量
顯卡的功耗與溫度測試,使用 Time Spy Stress test 與《電馭叛客 2077》進行測試。功耗測量時使用 NVIDIA 提供的 PACT 工具,可監控 PCIe 插槽與電源 12V 提供的瓦數。
顯卡溫度方面,RTX 4090 創始版在壓力測試最高溫維持在 67.8°C,至於 2077 遊戲時溫度則會稍微降低 65°C,而比較的 RTX 3090 創始版則有改過導熱墊,因此溫度表現相當。
顯卡 TBP 功耗測試,在 Time Spy Stress test 時 RTX 4090 平均都達到 390W 的功耗、瞬時最高 462W,而 2077 遊戲時則是平均 358W、瞬時 398W 的功耗表現。
RTX 4090 使用 Furmark Xtreme burn-in 最高可來到平均 458W 的功耗,這也是 NVIDIA 預設的功耗上限,若是品牌自製卡帶超頻的狀況下應該也會在 500W 左右,除非使用 2 個 12VHPWR 供電。
↑ Furmark Xtreme burn-in 平均來到 458W、瞬時 482W。
總結
NVIDIA GeForce RTX 4090 再次用實力超越以前的自己,在雙 NVENC 的加速下讓 DaVinci Resolve 18 有著更快的影音輸出效能,以及支援新一代 AV1 編碼功能,這將成為 RTX 40 系列的標配,而 3D 創作效能 Blender、V-Ray 都有著近 2x 倍的效能升級,這無疑是創作最強的專武。
遊戲效能方面,再次制霸 2160p、4K 的 AAA、光追遊戲效能,AAA 遊戲平均 1.7x 倍提升、光追遊戲平均 1.6x 倍升級,倘若 DLSS 3 普及 AI 補幀可帶來平均 2.95x 倍加速,滿足玩家 4K100fps 百幀的夢想,無疑是外掛級的遊戲神兵。
DLSS 3 目前公布的遊戲有達 35 款(含程式)支援,但每款遊戲的釋出、更新時間不同,因此需要等待一點時間讓新技術普及。
而這代有著近乎 2x 倍的效能升級,更可預期未來 RTX 4080 的表現依舊亮眼,但相對的 2x 倍效能提升下,RTX 4090 價位相比 RTX 3090 可說划算,但是 RTX 4080 價位跟著提高的狀況下,不知各位玩家有多少預算來追求這極致的效能?尤其未來主流 RTX 4060,能否切中玩家的期待與價格的甜蜜,這就要看 NVIDIA 如何盤算了。
RTX 4090 將於明日 10/12 日晚上 9:00 開賣,台灣建議售價為 NT$ 56,990 元起,至於台灣是否會販售創始版,則要留待 NVIDIA 台灣自行揭曉;至於 RTX 4080 則要等到 11 月。可預期明年應該會有 RTX 40 筆電 GPU,但首款旗艦價位應該會相當高,對於電競筆電有興趣的玩家可以稍加留意明年 CES 的消息。
4K 百幀不是夢,因為我是 NVIDIA GeForce RTX 4090。