Time:2022-03-26 Click:403
3玩家和AI从业者又爱又恨的老黄带着他的新核弹来了。不幸的是,这颗新的核弹与玩家关系不大,主要面向企业和工业市场。估计与玩家有关RTX 40系列最早要到9月份才会有消息。
好了,废话不多说,看看老黄这次带出了什么样的大宝贝。A100显卡的继任者。新一代计算卡H100登场。H100采用全新的Hopper最新的架构和台积电4nm工艺。上一代A100相比之下,各方面的参数都有了明显的提升。
英伟达的超级服务器芯片 Grace 也再次曝光。与上次给出的数据相比,格雷斯芯片的性能有了惊人的提高。根据新闻发布会的描述,英伟达似乎和苹果走在同一条路上。用更多的芯片组装处理器。
除了曝光和发布硬件产品外,NVIDIA软件领域也带来了很多新的东西,比如Omniverse Cloud,专注于云协作,让多个用户直接参与同一媒体文件的编辑和渲染。
此外,NVIDIA它还展示了许多基于虚拟现实环境的工业和交通模拟案例,以及一套AI驱动的虚拟角色系统。该系统可以通过深度学习进行动作训练,训练后不需要额外的骨骼动作设计。操作可以根据指令做出相应的动作。这不仅仅是AI从业者的狂喜也是电影和游戏从业者的狂喜。
不得不说,老黄这次带来了很多东西,每一个都可以给AI行业的发展带来了明显的变化。让我们详细看看英伟达发布的内容。
H100 和Grace
自去年以来,有消息称英伟达今年将发布新一代计算卡,并将使用新的计算卡Hopper架构。目前新闻准确,但大家都猜测新一代计算卡会用台积电。5nm但现在看来,英伟达一步步选择采用最新技术4nm工艺。虽然本质上是5nm ,但是功耗。性能更好,晶体管集成更高。
其实从H100从核心规格来看,不难理解为什么英伟达最终选择了它4nm,与上一代相比,晶体管集成度高达800亿A100超过260亿。核心数增加到16896,是世界上核心数最多的芯片核心,也是上一代1002.5倍。
夸张的核心参数提升带来的性能提升也极其夸张。根据英伟达官方给出的数据,H100浮点计算和张量核心计算能力将比上一代至少提高3倍,FP32最高可达60 teraflops,上一代 A100 为 19.5 teraflops。
H100也将率先支持PCIe 5.0和HBM3,让内存带宽惊人3TB/s。老黄说,目前全球只有20个网络流量H100可以处理。虽然听起来有点夸张,但确实反映了H100夸大性能参数。
强大的性能也伴随着夸张的功耗。NVIDIA给出的H100功耗高达700W(与上一代相比,真正的核弹显卡)A100。功耗只有400W,换来的是功耗的两倍。整体来说,性能提升的三倍并不是亏损。
H100还针对AI有针对性地优化训练中使用的模型,并配备Transformer优化引擎可以将大型模型的训练速度提高到原来的6倍,大大降低了大型模型所需的人工智能模型训练时间。此功能还呼应了以下讨论AI分身系统。
在 NVIDIA 在给出的测试数据中,训练 1750亿参数的 GPT-3 模型将时间从原来的一周缩短到19 小时, 3950 1亿参数Transforme 模型只需21 小时即可完成。训练效率提高了近9倍。
虽然参数看起来不错,但实际表现还有待后续实际测试结果公布。RTX 30系列和A100根据经验,实际性能的最终提高可能是2倍2.5两倍之间。,不太可能达到三倍,但即使只有两倍,也相当不错,至少在AI方面,已经完全碾压了AMD的计算卡。
此外,H100还引入了NVIDIA最新的NVIDIA NVLink第四代互连技术可以进一步提高GPU串联效率NVIDIA在给出的数据中,串联后I/O带宽可以扩展到900GB/s,比上一代增加50%。
再来看看英伟达的新玩具Grace,这是英伟达为服务器业务准备的超级服务器芯片。系列产品。Grace 芯片采用最新 Arm V9 架构,Nvidia 在此基础上,建立了两个超级芯片——Grace Hopper 和 Grace CPU 超级芯片。
其中,Grace Hopper 由一个 Grace CPU 和一个使用 Hopper 架构的 GPU 组成。两者将形成一个完整的计算系统。构建一个强大的计算服务器只需要一个芯片。芯片串联形成更大的计算阵列。
Grace CPU两个超级芯片Grace CPU组成,它们通过NVIDIA NVLink-C2C技术互连形成内置144个Arm核心和1TB/s巨型芯片的内存带宽(Grace CPU Ultra)。
说实话,英伟达的 Grace CPU 超级芯片很难不想到苹果在春季新闻发布会上发布的 M1 Ultra。它也是基于 的Arm 结构也由两个芯片组成。它也有夸张的特点。内存带宽和性能。
显然,芯片互连和装配技术已成为行业趋势之一,AMD也透露类似技术的CPU在研发中,我们将于2023年与您见面。只能说,单个芯片的性能开发正接近极限。如果你想有更大的改进,你可能不得不使用类似的互联技术来堆叠芯片。
不过,Grace CPU 超级芯片功耗不低。NVIDIA官方数据是500W,远超传统x86架构CPU。当然,考虑到格雷斯CPU夸张的超级芯片性能:SPECrate跑740分,比第二名高60%,这样的功耗也不是不可接受的。
显然,在 Arm 在服务器领域,英伟达雄心勃勃。