英伟达在9月20日深夜举办主题演讲,正式推出RTX 40系显卡,包括卡皇RTX 4090以及RTX 4080 16GB以及RTX 4080 12GB,它们基于全新设计的Ada Lovelace GPU架构,除了全面提升的显卡规格之外,英伟达也为40系显卡带来了全新的DLSS 3与光追计算单元,两个重要渲染引擎,让渲染性能更加出众。
但是紧接着而来的便是全面提升的价格,尤其是80显卡,相比较30系显卡价格提升十分地明显,那么40系显卡究竟为我们带来了怎样新的特性,这些功能值得消费者为其买单吗?
Ada Lovelace芯片:全新的工艺,暴增的性能
首先我们来说一下这颗由首位女性程序员Ada Lovelace命名的架构。作为卡皇,RTX 4090显卡的核心便是这颗AD102核心,整颗核心的面积为604.2平方毫米,相比较RTX 30系显卡还有所减小,但是晶体管数量却大幅提升,来到了763亿颗。
在总体的架构上,Ada Lovelace似乎与安培相差不大,一个计算单元内包括FP32计算单元,FP32与INT32共享的计算单元以及第四代Tensor Core,同时也包括第三代的RT计算单元,让深度学习以及光追更加高效。
总体规模上,Ada Lovelace与安培相比就有突飞猛进的提升,例如图形处理集群从7个提升至12个,从而使得计算单元从84个飞跃至144个,也就是说一颗完整的Ada核心,它能够提供最高18432颗流处理器,远超GA102的10752颗。此外光追单元也从84个提升至144个,深度学习单元更是从336个提升至576个,频率也从1.9GHz提升至2.5GHz。Ada芯片能够有如此大的参数提升,最主要的原因便是制程的进步。在安培制程上,英伟达采用的是三星8nm制程,而到了Ada时代,则采用定制版的台积电4nm制程,晶体管密度的提升极其明显,也让芯片面积在有所减小的情况下晶体管数量还能增长如此凶猛。
除此之外,英伟达还表示在Ada GPU的能耗比是安培的2倍,着色器渲染能力达到了83TFLOPS,同样是上代的两倍,并且光追算力猛增至191TFLOPS,更是上代2.8倍。而与深度学习有关的FP8张量计算更是达到了恐怖的1.32PFLOPS,已经是上代核心的5倍。在游戏方面,英伟达也称Ada在光栅性能上是安培的2倍,而光追性能更是后者的四倍。
对于玩家来说,RTX 40系显卡也大幅改善了运行时候的功耗表现,运行更加平稳,不会出现大规模的瞬时功耗提升,这对于想要添置大功率的玩家来说尤其重要。毕竟高端电源,多1W的供电,可能需要花费1.2甚至1.5元的预算。也正因为有了如此强大的计算性能,可以让Ada GPU实现更多的工作,例如DLSS 3这一被老黄认为革命性的AI帧生成技术。
DLSS 3:让AI生成帧,帧率大幅提升
DLSS是英伟达的深度学习抗锯齿技术,借助英伟达的AI神经网络减少GPU的画面渲染,从而提升游戏的画面,自从图灵架构开始,DLSS开始被消费者所认知。而这样提升画质的黑科技也经过了三代的更迭,初代DLSS借助显卡本身的AI驱动以及神经网络进行画面的渲染,但是由于算力的限制,实际效果并不理想,尽管帧率有所提升,但是画面却异常模糊,特别是在一些动态画面中更是如此。
第二代也就是目前最主流的DLSS 2.0时代,英伟达则选用了类似于DSR一样的技术,先让显卡以较低的分辨率进行渲染,随后再借助AI算力让画面变成高分辨率进行输出,当然相比较第一代DLSS,第二代DLSS无论是效果还是厂商接受度,都有着质的提升,并且消费者也越来越接受这项技术,此外友商也借助FSR以及XeSS实现与DLSS类似的效果。而到了DLSS 3的时代,已经不满足传统图形渲染的英伟达开始借助AI来自己创建渲染图像,通过插入到两个渲染图像之中,进一步降低GPU的渲染压力。
首先英伟达在Ada GPU中加入一个叫光流加速器的硬件,而它也是实现DLSS 3的核心。首先借助光流加速器,GPU分析画面之中运动物体的矢量数据,再根据卷积神经网络让AI自动渲染出游戏画面并插入到正常的游戏画面之中,这样便可以有效地提升游戏帧率,此外这种渲染方式也是游戏渲染领域的首次应用,前提自然是40系庞大的Tensor Core计算集群。
英伟达表示,DLSS 3可以借助AI最高渲染出7/8的显示像素,在帧率上与不采用DLSS的游戏相比,整整提升4倍。对于开启光追特效的游戏来说尤其有效。
例如在发布会上公布的《赛博朋克2077》便从22帧左右飞跃至90余帧,甚至由于所有的图像帧均在GPU上进行,并不经过CPU,因此即使你没有一颗性能强劲的CPU,同样可以让游戏帧率有着显著的提升。
但是有人会担心,由于采用的是AI渲染帧,并且插入到两张正常的渲染帧之间,会不会造成画面延迟上升,对于3A大作的玩家来说,延迟或许不是什么问题,但是对于FPS玩家来说,延迟却显得更加重要。对此英伟达表示游戏开发者以及游戏玩家可以借助NVIDIA Reflex,有效地降低游戏的传输延迟,从而让即使开启DLSS 3特效的玩家也能享受理想的延迟。
当然DLSS 3并非所有的RTX显卡都可以享受,由于缺少光流加速器,RTX 20以及RTX 30系显卡直接和它说再见,此外英伟达也提供了一张关于DLSS的特效表格,其中AI渲染与插帧技术为RTX 40系显卡独享,而RTX 40/30/20系显卡都支持原来的画面缩放功能,至于NVIDIA Reflex,从GTX 900系显卡就可以支持这项特效。目前已经有超过35款游戏支持DLSS 3,将于10月份陆续和大家见面。
全新渲染引擎:图形渲染更高效
伴随着RTX显卡的性能提升,尤其是拥有24GB庞大显存的RTX 4090显卡的出现以及NVIDIA Studio驱动的到来,越来越多的工作室开始购买GeForce游戏显卡作为图像渲染卡,而英伟达也不断地往游戏显卡中塞入全新的渲染引擎,让这些专业工作者能够拥有更加高效的图形与画面渲染。
这一次加入的引擎分别是Opacity Micromask引擎以及Micro-Mesh引擎,前者用于光追渲染,借助这个引擎,光追中的Alpha-Test几何性能最高提升2倍。而后者则是在不损耗存储资源,并且采用简易BVH的前提下,提升渲染画面的丰富度,相比较过去,图像的建模速度也有着巨大的提升,而这样功能也获得了Adobe等专业应用厂商的认可。
此外老黄还在RTX 40系显卡中支持了着色器重排序,与CPU的乱序执行一样,渲染任务队列可以根据实际需求进行更换,从而大幅提升图像的渲染效率以及GPU的利用率,换算到游戏中,就是提升25%左右的游戏性能,光追性能提升更是最高达到3倍。
目前伴随着Nvidia Studio等驱动的应用,游戏卡与专业卡之间的界限越来越模糊,而借助最新的技术,专业用户也能享受新一代GPU带来的出色工作效率,毕竟RTX 4090不仅仅是玩家独享的显卡。
集成八代NVIDIA编码器:视频与直播用户的最爱
目前直播以及视频制作的兴起也让GPU应该有更多的编解码性能,而英伟达这一次则在RTX 40系显卡中加入了双NVIDIA编码器,使得视频的输出时间可以减少最多50%,同时也支持AV1编解码,而像OBS、Blackmagic Design DaVinci Resolve等设计与直播软件也加入了NVENCAV1编码器,可以让RTX 40系显卡有着发挥的空间。
NVIDIA Broadcast软件开发工具包增加了面部表情预估,眼神追踪,以及虚拟绿幕质量改进三项功能,让直播UP主直播起来更具沉浸感,当然对于会议用户也是大有所益。
卡皇最具性价比
最后还是绕不开本次RTX 40系显卡的核心争议点那就是价格。由于更高的晶圆制造成本以及汇率,英伟达RTX 40系显卡的建议零售价相比较RTX 30系有所提升也是在预料之内,但是出乎意料的是,没想到这一次显卡的价格提升幅度实在是让消费者难以接受,RTX 4080 12GB售价为7199元,而RTX 4080 16GB售价为9499元,相比较RTX 3080 5499元的建议零售价来说实在是过于凶猛。而作为卡皇的RTX 4090反而是三款显卡中最具性价比的一款,原因是12999元的建议零售价比上代提升了1000元,当然提升的性能幅度显然对得起卡皇的售价。
而另外两款就不一定了,RTX 4080 16GB采用9728个CUDA核心,搭载16GB GDDR6X显存,性能相当于两倍的RTX 3080 Ti,而RTX 4080 12GB则采用7680个CUDA核心,搭载的是12GB的GDDR6X显存,性能也超过了RTX 3090Ti。在官方给出的游戏表现中,在光栅游戏下,RTX 4080 12GB与RTX 3090 Ti不相上下,部分游戏略输,而RTX 4080 16GB则比RTX 3090 Ti提升20%左右。
对于英伟达来说,显然需要RTX 4080系列显卡拥有一个强有力的表现,来让消费者接纳这两款显卡,毕竟经过了2年的矿潮,现在消费者的热情已经来到了底谷,再想恢复并不是一件容易的事情。
编辑:张书嘉
相关热词搜索: 英伟达RTX40系显卡解析