老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

“皮衣老黄”黄仁勋,在备受瞩目的GTC大会上,携带着英伟达最新最强大的AI芯片GB300震撼亮相,引爆全场!

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

在性能方面,GB300相较于去年发布的GB200,其推理性能提升了1.5倍。这意味着在处理复杂的AI任务时,GB300能够更快、更高效地完成,为AI应用带来更大的可能性。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

据悉,GB300预计将于今年下半年开始出货。这无疑将对整个AI行业产生积极的影响,推动AI技术的进一步发展和应用。

不仅如此,黄仁勋还提前展示了英伟达的下一代AI超级芯片,计划于2026年下半年发布,并且其命名方式也发生了重大变化——Vera Rubin。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

这种命名规则与Grace Blackwell(GB)类似:Grace代表CPU,Blackwell代表GPU。而Vera Rubin中,Vera代表CPU,Rubin代表GPU。根据黄仁勋的说法:

几乎所有细节都是全新的。这也预示着Vera Rubin将在技术上带来更大的突破。

从目前预览的性能来看,Vera Rubin的整体性能是GB300的3.3倍,这无疑是一个巨大的飞跃。更具体的数据如下:

Vera:CPU的内存是Grace的4.2倍,内存带宽是Grace的2.4倍。

Rubin:将配备288GB的HBM4,这将极大地提升GPU的性能。

在Vera Rubin之后的下一代GPU(预计2027年下半年发布),英伟达计划将其命名为Rubin Ultra,性能将直接提升至GB300的14倍。这样的性能提升速度令人惊叹,也展现了英伟达在AI芯片领域的强大实力。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

一个直观的性能对比,如下图所示:

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

更多具体的性能对比数据如下:

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

性能上的巨大提升,正如黄仁勋在现场所说的那样:

大规模推理是一种极限计算 (Inference at-scale is extreme computing)。随着人工智能模型越来越复杂,对计算能力的需求也越来越高,高性能的AI芯片将成为推动AI发展的关键。

令人惊讶的是,黄仁勋甚至还公布了Rubin之后的下一代GPU的代号——Feynman。这体现了英伟达对未来AI技术发展的深刻洞察和长远规划。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

纵观整场GTC大会,我们可以提炼出黄仁勋多次提及的几个关键词:tokens、推理和Agentic AI。这些关键词反映了当前AI技术发展的重点方向和趋势。

但除此之外,还有一个比较有意思的关键词——DeepSeek。这表明英伟达正在积极关注并与领先的AI公司展开合作。

英伟达官方博客宣称:

实现了DeepSeek-R1推理性能世界纪录。这无疑是对英伟达AI芯片性能的有力证明。

每个用户每秒可处理超过250个token;实现每秒超过30000个token的最大吞吐量。如此高的性能,将极大地提升AI应用的效率和用户体验。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

值得注意的是,这项纪录采用的是B200芯片。英伟达表示,随着Blackwell Ultra等新GPU的推出,纪录还将不断被打破。这预示着英伟达在AI芯片领域的持续创新和领先地位。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

黄仁勋在现场演示传统LLM和推理LLM的区别时,也使用了DeepSeek-R1作为例子。这进一步表明了DeepSeek在AI领域的领先地位以及与英伟达的紧密合作。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

这种微妙的关系,暗示着英伟达在AI生态系统构建中的积极姿态。

那么除了令人惊叹的一系列新GPU之外,还有什么值得关注的内容呢?让我们继续往下看。

推出两款个人AI超级计算机,标志着英伟达开始将高性能计算能力带入个人用户领域。

首先,第一款个人AI超级计算机名为DGX Spark。

它正是今年1月份CES展会上黄仁勋发布的全球最小的个人AI超级计算机Project Digits,如今正式命名为DGX Spark。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

DGX Spark售价3000美元(约21685元人民币),大小与Mac Mini相当。这使得高性能AI计算不再遥不可及。

它采用英伟达GB10芯片,能够提供每秒1000万亿次的AI运算能力,可用于微调和推理最新的AI模型。这将极大地加速AI模型的开发和应用。

其中,GB10采用了NVLink-C2C互连技术,提供CPU+GPU的相干内存模型,带宽是第五代PCIe的5倍。这确保了CPU和GPU之间的高效数据传输和共享。

值得一提的是,英伟达官网已经开放了预定通道。这表明DGX Spark已经准备好进入市场,为个人用户带来强大的AI计算能力。

至于第二款个人AI超级电脑,则是DGX Station,它代表了个人AI计算的更高水平。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

DGX Station采用的正是本次推出的GB300芯片,也是首个采用这款芯片的AI电脑。这意味着DGX Station将拥有更强大的性能和更广泛的应用场景。

其性能如下:

拥有784GB的相干内存空间,能够处理更大规模的数据和模型。

拥有英伟达的ConnectX-8超级网卡,支持高达800Gb/s的网络速度,保证了高速的数据传输和通信。

拥有Nvidia的CUDA-X AI平台,可访问NIM微服务和AI Enterprise,为用户提供了丰富的AI开发工具和资源。

用黄仁勋的话来说就是:

这就是PC应该有的样子 (This is what a PC should look like)。这表达了黄仁勋对未来个人计算形态的愿景,即AI能力将成为PC的核心组成部分。

DGX Station预计将于今年晚些时候从华硕、BOXX、戴尔、惠普、Lambda和美超微等厂商处推出。这意味着用户将有更多的选择,可以根据自己的需求选择合适的品牌和配置。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录
△搭载GB300的DGX Station主板

根据英伟达官方的介绍,这两款个人AI超级计算机是面向研究人员、数据科学家、AI开发者和学生设计的。它们将为这些专业人士提供强大的AI计算能力,助力他们在各自的领域取得更大的突破。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

值得注意的是,英伟达此次GTC大会的发布内容,不仅仅局限于芯片和AI超算,还包括了网络、软件以及多个行业应用的解决方案,充分展现了其在AI领域全面布局的战略。

除此之外,黄仁勋还在本届GTC上宣布进军以太网领域,推出了全球首个面向AI的以太网网络平台——Spectrum-X 。这表明英伟达正在构建一个完整的AI生态系统,从硬件到软件,从计算到网络,全面满足AI应用的需求。

它由英伟达的Spectrum-4以太网交换机和BlueField-3 SuperNIC共同驱动,能够为AI、机器学习和自然语言处理等应用提供高性能支持。这说明英伟达不仅仅关注算力,也十分重视数据传输的效率。

与传统以太网相比,Spectrum-X可以将AI网络性能提升1.6倍,并且提高AI云的电力效率。这对于降低AI应用的成本和提高能源利用率具有重要意义。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

此外,还包括基于硅光学的Spectrum-X Photonics和Quantum-X Photonics网络交换平台,用于使用硅光学的超大规模数据中心。这表明英伟达正在探索新的网络技术,以满足未来AI应用对更高带宽和更低延迟的需求。

新的网络交换平台将端口数据传输速度提升至1.6Tb/s,总传输速度达到400Tb/s,使得数百万个GPU能够协同工作,这对于构建大规模的AI应用至关重要。可以预见,这将为未来的AI模型训练带来质的飞跃。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

英伟达还在这次GTC大会上开源了一系列软件,这表明英伟达正在积极构建开放的AI生态系统,鼓励开发者参与到AI技术的创新和应用中来。

除了硬件,英伟达这次在软件开源方面也有几个新动作。这预示着未来的AI发展将更加注重软硬件结合。

其中最重磅的当属发布NVIDIA Dyamo,这是一个用于加速AI模型推理的分布式推理服务库。它将极大地提升AI模型的推理效率和性能。

黄仁勋将其称为“AI工厂的操作系统”,核心目标在于提高推理性能的同时,降低Test-Time算力消耗。这意味着开发者可以更高效地部署和运行AI模型,从而降低成本并加速AI应用的落地。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

按照英伟达的说法,在NVIDIA Blackwell上使用Dynamo优化推理,可以让DeepSeek-R1的吞吐量提升30倍。这是一个非常显著的性能提升,将极大地改善AI应用的响应速度和用户体验。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

Dynamo之所以能够实现如此高效的推理性能,主要在于它可以动态调整GPU资源来应对请求波动,并优化数据卸载到成本更低的存储设备,从而降低推理成本并提高效率。这表明英伟达在AI软件优化方面也具备强大的实力。

目前Dynamo已经完全开源,支持PyTorch、SGLang、NVIDIA TensorRTyTM以及vLLM。在GitHub获取后,即可将推理工作分配到多达1000个NVIDIA GPU芯片。这为开发者提供了极大的灵活性和可扩展性。

此外,英伟达还宣布开源新的AI推理模型——Llama Nemotron,该系列模型也曾出现在今年1月份的CES上。这表明英伟达不仅提供AI基础设施,同时也积极参与到AI模型的研发和开源中来。

据介绍,Llama Nemotron基于开源Llama基础模型构建,采用英伟达最新技术和高质量数据集进行剪枝和训练,优化了计算效率和准确性。这意味着Llama Nemotron在性能和效率方面都具备优势。

为了直观展示其性能,黄仁勋在大会上将Llama Nemotron和Llama 3.3(70B)以及DeepSeek R1 Llama (70B)进行了对比,下图展示了它们在Agentic任务上的平均准确率(横轴)与每秒处理的tokens数量(纵轴):

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

可以看出,新的推理模型以49B参数量的性能远超另外两个模型,在Agentic任务中表现更为突出。这表明Llama Nemotron在特定任务上具有独特的优势。

目前Nano和Super模型可在NIM微服务中获取,Ultra模型即将推出。这将为开发者提供更多的选择,可以根据自己的需求选择合适的模型。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

与此同时,英伟达在自动驾驶和具身智能方面也取得了新的进展。这表明英伟达正在积极拓展AI技术的应用领域,致力于将AI技术应用到各个行业。

大会开始不久,黄仁勋即宣布英伟达与通用汽车达成合作:

通用汽车将在自动驾驶上使用英伟达的AI技术。这标志着英伟达在自动驾驶领域取得了重要的突破。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

在这之后,英伟达正式发布了端到端自动驾驶汽车全栈综合安全系统NVIDIA Halos。这表明英伟达正在将安全作为自动驾驶技术发展的首要考虑因素。

这个系统主要将NVIDIA的汽车硬件和软件解决方案与尖端AI研究相结合,以确保从云端到车辆的自动驾驶汽车(AVs)的安全开发。这表明英伟达正在构建一个全面的自动驾驶解决方案,从硬件到软件,从云端到车辆,全面保障自动驾驶的安全可靠。

介绍过程中,黄仁勋多次提到了“安全性”这个词,并公开声称:

我们是世界上第一家对每一行代码进行安全评估的公司。这表明英伟达对自动驾驶的安全问题高度重视,并且采取了严格的安全措施。

具体来说,Halos系统主要在三个互补的层面提供支持:

技术层面:包括平台安全、算法安全和生态系统安全,确保系统各个层面的安全可靠。

开发层面:涵盖设计阶段、部署阶段和验证阶段的安全防护措施,确保整个开发过程的安全可控。

计算层面:从AI训练到部署的全过程,利用三种强大的计算平台,分别是NVIDIA DGX用于AI训练,NVIDIA Omniverse和NVIDIA Cosmos在NVIDIA OVX上运行用于模拟,以及NVIDIA DRIVE AGX用于部署,为自动驾驶的安全提供强大的计算支持。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

到了大会的最后阶段,黄仁勋宣布英伟达与Google DeepMind和Disney Research合作,正在开发下一代开源仿真物理模型Newton。这表明英伟达正在积极拓展AI技术的应用领域,并与各行业的领先企业展开合作。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

据英伟达介绍,Newton基于NVIDIA Warp构建,支持与MuJoCo Playground或NVIDIA Isaac Lab等学习框架兼容。这表明Newton具有良好的兼容性和可扩展性。

它主要用于机器人模拟训练,使用后可以帮助研究人员安全、加速且低成本地训练/开发/测试/验证机器人控制算法和原型设计。这将极大地加速机器人技术的发展。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

同时,英伟达还同步推出了Isaac GR00T N1,号称全球首个开源的、完全可定制的人形机器人基础模型。这表明英伟达正在积极推动机器人技术的开源化和普及化。

它采用双系统架构,灵感来自人类思考模式,包括快速思考的动作模型(System 1)和慢速思考的决策模型(System 2)。这种架构借鉴了人类的认知模式,有望提高机器人的智能化水平。

老黄发布新核弹B300 英伟达:B200已破DeepSeek-R1推理世界纪录

在大会演示中,GR00T N1能够轻松泛化常见的任务,如抓取、移动物体以及在双臂之间转移物品,或执行需要长时

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 2025年 3月 19日 上午8:41
下一篇 2025年 3月 19日 上午9:37

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!