在全球 AI 算力竞赛愈演愈烈的背景下,英伟达的市值一路攀升至 4 万亿美元关口,引发了业界对于其护城河可持续性的广泛讨论。近期,英伟达 CEO 黄仁勋做客硅谷知名播客,进行了接近两小时的深度对话。这场访谈不仅回应了市场对于软件价值稀释、竞争对手威胁以及供应链瓶颈的质疑,更揭示了英伟达对于未来计算架构的底层逻辑。
从电子到 Token 的转化效率,到 Agent 生态带来的软件增长新曲线,再到供应链的深层绑定策略,黄仁勋的回应信息量极大。视频发布仅半天,YouTube 观看量便突破 10 万+,网友纷纷表示很少见到黄仁勋如此激动的状态。以下为访谈核心内容精选及深度解析。
鱼羊 发自 凹非寺
AI快讯网 |
接近两个小时,正面回答关于英伟达一路在大模型时代涨到 4 万亿美元市值的种种问题。
黄仁勋在“硅谷最受欢迎播客”的全新访谈,信息量有点高。
视频发布半天,单在油管上的观看量已经超过 10 万+。
网友还锐评:很少看到黄仁勋这么激动。
太长不看版,重点笔记放在这里了:
- 输入是电子,输出是 Token,在这中间是英伟达。
- AI 不会使软件变得廉价、同质化,Agent 的普及会快速提高工具部署率,带来更高速的增长。
- TPU 对英伟达没有威胁。英伟达 GPU 让新算法的发明变得容易。
- 英伟达没有更早投资 OpenAI 等,是“认知有误”,也是“无可奈何”。
- 英伟达的哲学是“必须做的事,但越少越好”。
- 英伟达从不做加钱就先给 GPU 的事。
- 即使没有深度学习,英伟达依然会专注加速计算。
更多细节,万字实录在此奉上(内含老黄激烈反驳)。
(播客主持人 Dwarkesh Patel 提问以下简写为 Q)
Q:软件公司正在经历估值暴跌,因为人们认为 AI 会使得软件变得廉价。一个可能显得天真的观点是:英伟达从根本上是在做软件,而制造由其他人完成。如果软件变得廉价,英伟达会不会也失去护城河?
黄仁勋:归根结底,必须有某种东西将电子转化为 Token。
这种从电子到 Token 的转化,以及时间让 Token 变得更有价值的过程,是很难变得同质、廉价的。
从电子到 Token 的旅程是如此不可思议。让一个 Token 比另一个更有价值,其中投入的艺术、工程、科学和发明是显而易见的。我们正在实时见证这一过程,而其中所涉及的一切还远未完全被理解,这一旅程远未结束。我其实对你所说的假设是否会发生持怀疑态度。
当然,我们会让这一过程更高效。你提问的方式正好是英伟达运营的精神模式:输入是电子,输出是 Token。在这之间就是英伟达。
我们的工作是付出必要的努力,同时尽可能少地干预,以实现这种转化能力的最大化。所谓“尽可能少地干预”,意味着不是必须要我们做的事,我们就交给合作伙伴,让其成为生态系统的一部分。
今天的英伟达拥有最大的合作伙伴生态系统,包括上下游供应链、所有的计算机公司、应用开发者和模型制造者。
可以把 AI 看作一个五层蛋糕,我们的生态系统覆盖了每一层。我们尽可能做更少的事,但事实证明,我们不得不做的那部分难度异常巨大。我不认为这个部分会变得同质化。
实际上,我也不认为软件公司、工具开发者会失去护城河……如今大多数软件公司都是工具开发者。例如,Excel 是工具,PowerPoint 是工具,Cadence 制造工具,Synopsys 也制造工具。我和大家的看法正好相反,我认为 Agent 的数量将会呈指数增长,工具的用户数量也会呈指数增长。这些工具部署数量很可能会激增。
今天,我们受限于工程师的数量。但未来,会有大量 Agent 来支持工程师,以前所未见的方式去探索设计空间,而今天我们所使用的工具并不会被抛弃。
我认为工具的普及会使软件公司飞速增长。之所以还没有完全发生,是因为 Agent 在使用这些工具时还不够高效。要么这些公司自己会构建 Agent,要么 Agent 会进化到能够高效使用这些工具。我认为两者会结合在一起。
Q:在你们最近的申报文件中,英伟达在代工厂、内存和封装等方面的采购承诺接近 1000 亿美元。SemiAnalysis 说你们的相关采购承诺实际上达到 2500 亿美元。
有一种解释是,英伟达的护城河其实在于你们提前锁定了这些稀缺组件的供应链。这是否是英伟达接下来几年间最大的护城河?
黄仁勋:这是我们能做到但别人很难做的事情。
我们在上游做了巨大的承诺。有些承诺是显性的,比如您提到的这些采购合同。而有些承诺则是隐性的,例如很多上游的投资是由我们的供应链合作伙伴推动的,因为我会对这些厂商的 CEO 说:“让我来告诉你这个行业规模会有多大,让我向你解释原因,让我跟你一起推演,并展示我所看到的。”
通过这种方式,我不断地向不同领域上游产业的 CEO 们传递信息、激励他们并与他们达成一致。这样一来,他们愿意进行投资。为什么他们愿意为我投资,而不是其他人?因为他们知道,我有能力承接他们的供应,并通过我的下游销售出去。
事实是,英伟达的下游供应链以及需求规模非常庞大,他们愿意为此投资。
有人总是说:“黄仁勋,你的大多数主题演讲就是一个接一个的发布。”事实上,我的演讲中总有一部分很“折磨人”,几乎像在上课。我是故意的,我需要确保我们的整个供应链——无论是上游还是下游——都了解正在发生的变化,理解这些变化为什么会发生、何时发生以及规模多大,并能像我一样系统性地推理出来。
回到护城河的问题,我们正为未来做准备——如果未来几年我们的业务规模达到一万亿美元,我们的供应链已经为此做好了准备。如果没有我们的市场覆盖率和业务驱动力……正如现金流有其流通性一样,供应链也存在其流动性。如果没有足够频繁的业务流动性,就没有人会愿意建立供应链来支持架构上的扩展。我们能够承受这么大的规模扩展,是因为我们下游的需求非常庞大。而大家已经亲眼见证了这一点。这使我们能够以现在的规模去完成我们所做的一切。
Q:我想更具体地了解上游是否能够跟上需求。过去的几年中,你们的年收入不断翻倍,你们向全球提供的浮点运算能力(flops)增长更是超过了三倍。
黄仁勋:在现在这种规模下做到收入翻倍确实令人难以置信。
黄仁勋:从某种程度上来说,瞬时需求已经超过了全球上游和下游的供应总量。在任何时刻,我们都可能被“水管工”的数量所限制,这确实会发生。
Q:那明年的 GTC 大会应该邀请水管工们来参会(笑)。
黄仁勋:这个主意不错(笑)。但拥有超越行业供应能力的需求是好事。显然,情况相反的话就不妙了。如果供应和需求之间的差距过大,行业会迅速向缺口聚合。例如,你会发现,现在几乎没人再谈论 CoWoS 封装技术了。
Q:为什么?
黄仁勋:原因在于过去两年行业已经对此进行了大量投资,其规模甚至翻倍增长了几次。目前我们在这方面处于相当不错的状态。台积电现在知道,CoWoS 的供应能力必须跟上逻辑芯片和内存的需求。他们正在把 CoWoS 和未来的封装技术扩展到和逻辑芯片同步发展的水平。这非常棒,因为曾经一段时间里,CoWoS 和 HBM 内存技术还被视为一种“特种技术”。但现在它们已经成为主流计算技术。
当然,现在我们能够更广泛地影响供应链。AI 革命的早期,我就已经在说我现在说的很多话了。当时,有些人相信并为此进行了投资,比如美光的桑杰(Sanjay)和他的团队。我对那次会议印象非常深刻,我清晰地阐明了为什么事情会这样发生以及对未来的预测。而他们真的加倍投入了,与我们在 LPDDR 和 HBM 内存领域建立了合作。这无疑为他们公司带来了巨大的发展。有一些人来的稍晚,但现在他们也都到场了。
我们对每一个瓶颈问题都给予了极大的关注。现在我们在提前几年预判这些瓶颈。例如,过去几年内我们与 Lumentum、Coherent 以及硅光子生态系统的合作投资,确实重塑了供应链。我们围绕着台积电建立了完整的供应链,在 COUPE 项目上与他们合作,发明了一堆新技术,并将专利授权给供应链以保持其开放性。
我们通过新技术、新工作流程、新检测设备以及投资,来帮助合作伙伴扩展产能。你可以看到,我们正试图通过生态系统的建构,确保供应链能够支持这种规模化的发展。
Q:看起来有些瓶颈比其他的更容易解决。将 CoWoS 扩展到更大规模可能相对容易——
黄仁勋:顺便说一下,我挑了最难的一个例子。
Q:哪个?
黄仁勋:管道工和电工。
这也是我对某些“末日论者”感到担忧的一点,这些人总是在描述工作被终结,岗位将消失的问题。如果我们劝人们不要做软件工程师,那我们将会面临软件工程师短缺的问题。
同样,十年前也有人做过类似的预测,那时一些悲观主义者说:“无论你做什么,都不要成为放射科医生。”你现在可能还能在网上找到那些说放射科医生这个职业会首先消失的视频。但现在发生了什么?我们恰恰缺少放射科医生。
Q:回到之前关于某些瓶颈更容易解决的问题。如何每年制造 2 倍的逻辑芯片?逻辑芯片和内存芯片的扩展受到极紫外光刻(EUV)的限制。如何做到每年 2 倍增长?
黄仁勋:这是可以快速扩展的。这些都不难,只需要需求信号。一旦你能够造一个,就可以造十个,接着就可以造一百万个。所有这些都很容易复制。
Q:你们会介入多深?会去和 ASML 沟通吗,告诉他们:“看看三年后的需求吧。为了让英伟达每年实现 2 万亿美元的营收,我们需要更多 EUV 光刻机。”
黄仁勋:有些我得直接开口,有些则是间接实现的。比如我说服了台积电,ASML 自然会被说服。关键是我们必须考虑关键瓶颈。但只要台积电被说服了,几年内你就会看到足够的 EUV 设备。
我的观点是,没有哪个瓶颈会持续超过两三年。
与此同时,我们在提升计算效率方面也在取得巨大进步。例如,Hopper 到 Blackwell 架构的效率提升达到 30-50 倍。因为 CUDA 的灵活性,我们能够开发出全新的算法。此外,我们在提高计算效率的同时也在增加产能。这些问题对我来说都没有那么值得担心。真正带来风险的是下游问题,比如限制能源扩展的政策。没有能源,你不可能建立一个工业;没有能源,你不可能建立一家新的制造企业。
我们要重塑美国的工业。我们希望带回芯片制造、计算机制造和封装工艺;我们希望建造新的东西,比如电动车、机器人;我们希望建造 AI 工厂。但你无法在没有能源的情况下完成这些,并且这些问题都需要很长时间去解决。相比之下,芯片产能的问题只需要 2-3 年即可解决。CoWoS 产能扩展也是 2-3 年的事。
Q:很有趣。我觉得我邀请的嘉宾有时会表达完全相反的观点。在这种情况下,我欠缺技术知识来判断。
黄仁勋:好消息是你现在在和一位专家交谈(笑)。
Q:我有一个关于竞争对手的问题。世界上排名前三的 AI 模型中有两个——Claude 和 Gemini,都是在 TPU 上训练的。这对英伟达未来意味着什么?
黄仁勋:我们构建的东西与 TPU 非常不同。
英伟达构建的是加速计算(Accelerated Computing),而不是仅仅一个张量处理单元(TPU)。
加速计算可以用于各种用途:分子动力学、量子色动力学、数据处理、数据框架、结构化数据和非结构化数据。它还用于流体动力学和粒子物理学。此外,我们也用它进行 AI 计算。
加速计算更加多样化。尽管今天大家都在谈论 AI,并且 AI 的确非常重要且具有深远影响,但计算的范围远比这更广泛。
英伟达重新定义了计算的方式,从通用计算过渡到加速计算。我们的市场覆盖范围远远大于任何 TPU 或 ASIC(应用专用集成电路)能够达到的水平。我们是唯一一家能够加速各种应用的公司。我们拥有一个庞大的生态系统,所以各种框架和算法都能在英伟达的平台上运行。
另外,大多数自建系统都不是为方便他人操作而设计的。我们的系统之所以无处不在,包括在 Google、Amazon、Azure 和 OCI(Oracle 云基础设施)上,是因为任何人都可以使用我们的系统进行操作。
有大量应用场景是 TPU 无法覆盖的。英伟达把 CUDA 打造成一个出色的张量处理单元,但它也能处理数据处理、计算、AI 等的整个生命周期。我们的市场机会更广,覆盖面更大。因为我们支持世界上所有类型的应用,你可以在任何地方建立英伟达系统,并确信它会有客户需求。这是一个完全不同的概念。
Q:接下来是一个长问题。你们的营收非常惊人,而这些钱并不是来自制药或者量子计算领域。之所以能有每季度 600 亿美元的收入,是因为 AI 是一种史无前例的技术,其增长速度也同样前所未有。
所以问题是,对于人工智能而言,究竟什么才是最合适的选择?我对细节不熟,但和我的 AI 研究员朋友交流时,他们说:“看看 TPU 吧,它是一个大型的行列式阵列,非常适合执行矩阵乘法,而 GPU 则非常灵活。GPU 在有大量分支或非规则内存访问时表现优异。”
但 AI 本质是什么?它只是一次又一次地进行可预测的矩阵乘法。你不需要为 warp 调度器或线程和内存组之间的切换浪费任何芯片面积。而 TPU 确实针对当下 AI 计算的主要增长需求和用例进行了优化。我想知道你对此有何回应。
发明新算法的能力正是推动 AI 快速进步的真正原因。像 TPU 这样的设备同样受到摩尔定律的限制,增速约为每年 25%。而唯一能实现 10 倍或 100 倍跃升的方法,就是从根本上改变算法和计算方式。
这是英伟达的核心优势。我们之所以能实现从 Hopper 到 Blackwell 50 倍的性能改进……当我第一次宣布 Blackwell 比 Hopper 的能效高出 35 倍时,没有人相信。后来 Dylan 写了一篇文章指出我其实“故意保守”了,实际是 50 倍。这根本不可能仅仅依赖摩尔定律来实现。我们解决这个问题的方法是通过新模型,比如 MoE,在计算系统中并行化、解耦并分布式实现。没有 CUDA 的支持,要开发这样的新内核几乎是不可能的。
我们的优势在于,英伟达的架构具备编程灵活性,同时我们也是一家极具协同设计能力的公司。我们甚至可以将一些计算卸载到计算架构中,比如 NVLink;或者集成到网络中,比如 Spectrum-X。我们能够同时影响处理器、系统、架构、库和算法的各个环节。如果没有 CUDA,我甚至不知道该从哪开始开发。
Q:这涉及到一个有趣的问题,即关于英伟达客户群的特点。目前,你们 60% 的收入来源于五大超级云服务商。在一个不同的时代,面对不同的客户——比如做实验的教授们,他们需要的是 CUDA。他们无法使用其他加速器,只需要运行配备 CUDA 的 PyTorch,并确保一切都可以顺利被优化。
但这些超级云服务商有足够的资源来编写自己的内核。实际上,为了获取他们特定架构所需的最后那 5% 的性能,他们必须这样做。Anthropic 和 Google 已经转向他们自己的加速器,比如 TPUs 和 Trainium。即使是使用英伟达 GPU 的 OpenAI,也开发了像 Triton 这样的工具,因为他们需要自己的内核。从 CUDA C++ 到 cuBLAS 和 NCCL,他们拥有一个完整的独立栈,并且能够编译到其他加速器上。
在大多数客户可以并实际在构建 CUDA 替代品的情况下,CUDA 是否仍然是让前沿 AI 领域依然选择英伟达的关键?
我们非常乐意帮助每个框架变得尽善尽美。市面上有很多很多框架,比如 Triton、vLLM、SGLang,以及更多新兴的强化学习框架,比如 verl 和 NeMo RL。关于后训练和强化学习,这片领域正在快速爆发式增长。所以如果要在一个架构上构建,基于 CUDA 是最明智的选择,因为你知道这个生态系统是强大且靠谱的。
你会知道如果出了问题,大概率是在你的代码中,而不是在底层那一大堆代码里。别忘了,当你在构建这些系统时,要面对的代码量是巨大的。当某些东西无法工作时,是你出问题了,还是计算机有问题?你会希望始终是你出错了,并且相信计算机的健壮性。当然,我们自己的系统也有问题,但它已经过深度的优化,你至少可以在这个可靠的基础上构建。这是第一点:生态系统的丰富性、可编程性和能力。
世界上部署了数亿英伟达 GPU,每个云平台上都有它。A10、A100、H100、H200,各种 L 系列及 P 系列设备,种类繁多,形态各异。我们基本上无处不在。这种庞大的安装基础意味着,一旦开发完成,你的软件或模型就能在世界上任何地方运行,这种价值是不可估量的。
Q:这确实有道理。我感兴趣的是,这些优势对你们主要的客户来说是否依然显得那么重要。对于大部分产业中的用户,这可能非常重要。但对于实际上能够构建自己软件栈的客户——这类客户占你们收入的大头,尤其在一个 AI 越来越强大的世界里……问题最终变成了:如果超大规模的企业都能编写自己的内核,而不是依赖 CUDA,英伟达还能否维持目前的利润率?
黄仁勋:我们公司分配在这些 AI 实验室里的工程师数量是惊人的。
我们为他们持续优化他们的软件栈,原因在于没有人比我们更了解自己架构的复杂性与细节。
这些架构不像 CPU 那么“通用”。CPU 就像一辆凯迪拉克,运行平稳,性能没有极端起伏,任何人都能很好地驾驶它。但英伟达的 GPU 和加速器更像一级方程式赛车。我可以想象每个人都能够以 100 英里/小时的速度驾驶这些 GPU,但要真正跑出极限,就需要极高的专业知识。我们也使用大量 AI 来优化我们现有的内核库。
我很确定在未来很长一段时间内,我们的专业知识对于合作的 AI 实验室来说依然不可或缺。我们经常能够让他们的软件栈优化再优化,使性能提升 1 至 2 倍。有时优化一个特定内核,性能能直接提升 2 倍或 3 倍。这种提升对于运行大量 Hopper 或 Blackwell 设备的客户来说是非常重要的,因为它们直接增加整个设施的效率,相应地提高客户的收入。
毫无疑问,英伟达的计算软件栈在性能总拥有成本(TCO)方面是世界上最优的。没有任何单个平台可以提供比我们更高的性能-TCO 比例。基准测试就在那里,我鼓励 TPU 或 Trainium 使用 InferenceMAX、MLPerf 来展示他们所谓惊人的推理成本优势,但没人愿意出来展示。从第一性原理来说,这根本不合理。
我认为我们之所以如此成功,原因很简单:我们的总拥有成本(TCO)非常出色。
其次,你提到我们 60% 的客户来自五大云计算公司,但是其中大部分业务其实是面向外部客户的。
他们之所以选择我们,是因为我们拥有强大的客群覆盖能力。我们能为他们带来全球最出色的客户。这些客户选择英伟达,是因为我们特有的广泛覆盖与多功能性。
我认为飞轮效应来自几个方面:我们的安装基础,我们架构的可编程性,我们生态系统的丰富性,以及大量 AI 公司的存在。
所以,这就是飞轮所在。我们成功的核心原因包括:
第一,性能与成本的优势。我们的每美元性能非常出色,客户的成本最低。
第二,能效优势:我们的每瓦性能是全球最高的。如果一家公司建造了一个 1GW 的数据中心,这个数据中心必须能够带来最大化的收益和尽可能多 Tokens,这直接转化为收入。而我们拥有全球每瓦 Token 最多的架构。
Q:有趣。我认为问题的关键在于市场结构到底是什么样的。也许会存在这样一个世界,有成千上万家 AI 公司,它们的计算量份额大致相等。但从五大云服务商的角度看,实际上使用这些计算资源的是 Anthropic、OpenAI,以及有能力自己构建各种加速器的大型基础模型实验室。
黄仁勋:不,我认为你的假设是错误的。
Q:也许吧,但让我问你一个稍微不同的问题。
黄仁勋:不,让我纠正你的假设。
Q:好。让我换个问题问你。
黄仁勋:但仍要保证让我纠正这个假设。因为这对 AI 太重要了,对科学的未来太重要了,对行业的未来也太重要了。这个假设……听我说——
Q:让我先完成问题,然后我们可以一起探讨这个话题。
黄仁勋:好的。
Q:如果关于价格、性能和每瓦性能等这些指标是真的,那么你怎么看这样一件事情?比如说,Anthropic 最近刚刚宣布,他们与博通和谷歌达成了一份多吉瓦级别的 TPU 计算协议,他们的大多数计算都是通过 TPU 完成的。
显然,对于谷歌来说,TPU 提供了主要的计算资源。而根据我的观察,这些大型 AI 公司,似乎他们的大部分计算资源……曾经是完全依赖英伟达的,但现在不是了。所以,如果这些参数数据在纸面上都是真的,你怎么看这些公司仍然选择其他加速器的情况?
黄仁勋:Anthropic 是一个特殊案例,不是一个趋势。如果没有 Anthropic,TPU 还会有增长吗?完全靠 Anthropic 支撑。如果没有 Anthropic,Trainium 会有增长吗?完全也是靠 Anthropic。这里不是说有大量的 ASIC 机会,而是只有一个 Anthropic。
Q:但是 OpenAI 和 AMD 之间的合作……他们正在自研自己的 Titan 加速器。
黄仁勋:是的,但是我们都可以承认,OpenAI 的主要计算依然依赖英伟达。我们仍在大量合作。
我并不介意其他公司尝试使用不同的东西。如果他们不试试这些产品,他们怎么会知道我们的有多好?我们也需要被提醒,必须不断努力,才能维持我们今天的地位。
总是会有夸大的说法。但是,看看过去被取消的 ASIC 项目数量。要做出比英伟达好的产品并不容易。其实也并不明智。当然英伟达肯定会有遗漏的地方,在我们的规模和速度上,我们是唯一一家每年都在大幅度推动技术跃升的公司——每一年。
Q:我想他们的逻辑可能是:“嘿,这些产品不需要更好,只要不比英伟达差 70% 就可以了”,因为从你们这买要支付 70% 的利润。
黄仁勋:别忘了,即使是 ASIC,利润率也非常高。假设英伟达的利润率是 70%,ASIC 的利润率也接近 65%。你到底省了多少?
Q:你是指博通?
黄仁勋:是的。你总要给某家公司支付费用。从我所了解的数据来看,ASIC 的利润率非常高。他们自己也这么认为,并且惊人的 ASIC 利润率感到自豪。
很久以前,我们并没有能力做这样的事情。当时,我并没有深刻意识到,建立一个像 OpenAI 或 Anthropic 这样的基础 AI 实验室是多么困难,他们需要供应商做出巨大的投资。我们当时无法提供数十亿美元的投资让 Anthropic 使用我们的计算资源,但谷歌和 AWS 可以。他们在早期投入了巨额资金,使 Anthropic 最终使用了他们的计算资源。而当时我们没法做到。
我的失误在于没有深刻认识到 AI 实验室们别无选择,风险投资公司永远不会向一个实验室投资 50-100 亿美元。不过即使我明白这一点,我认为当时我们也无法做到。好在我不会再犯同样的错误了。
我很高兴能投资 OpenAI,并帮助他们扩展。我也很高兴后来 Anthropic 找到我们时,我们能够投资支持他们。过去我们做不到,如果能重来——如果当时的英伟达有我们今天的规模——我将十分乐意这么做。
Q:这确实很有意思。多年来,英伟达一直是 AI 领域赚钱最多的公司。现在你们在进行投资,据报道,你们已经向 OpenAI 投资了高达 300 亿美元,向 Anthropic 投资了 100 亿美元。而现在,他们的估值已经显著增长,我相信它们还会继续增长。
所以,在这些年里,你们一直为这些公司提供算力,你们能看到它们的发展方向。几年前,甚至就在一年以前,他们的估值仅是现在的十分之一,而当时你们手头有充裕的现金。按理说,有一种可能是,英伟达自己可以打造一个基础研究实验室,进行巨额投资让这一切成为可能,或者在高额估值之前更早完成你们现在所做的交易。我很好奇,为什么不早点做呢?
黄仁勋:我们在能够做到的时候就马上做了。如果更早具备条件,我也愿意更早去做。但当 Anthropic 需要我们这么做的时候,我们并不具备条件。这在当时对我们来说也不是一个合理的选择。
Q:为什么?是因为资金问题吗?
黄仁勋:是的,投资规模的问题。那时我们从未对外部公司进行过投资,尤其是这么大规模的投资。当时我们没有意识到这是必要的。我一直认为他们可以像其他公司一样去找风投融资。但他们想要实现的目标并不是通过风投就能完成的。OpenAI 想要实现的目标也无法通过风投达成。我现在认识到了,但当时并不了解。
不过这也是他们的聪明之处。他们早就意识到必须这样做。我很高兴他们当时做出了这样的选择。尽管这导致了 Anthropic 不得不去找别人,但我仍然为他们存在而感到高兴。Anthropic 的存在对于世界来说是件好事,我真心为此感到欣喜。
Q:当然,你们仍然赚了很多钱,而且每个季度赚得越来越多。
黄仁勋:即便如此,仍然可以有遗憾。
Q:那问题依旧存在——现在你们手头有大量资金,并且一直赚更多的钱,你们应该用这些资金来做什么?一个答案是,一个中间商生态系统正在崛起,他们使得这些研究实验室将资金性开支转为运营性开支,以便这些实验室可以租用计算资源。芯片非常昂贵,但它们在生命周期内能产生巨大的价值,因为 AI 模型正变得越来越强大。英伟达有足够的资金来承担这样的资本性开支。实际上,据报道,你们为 CoreWeave 提供了多达 63 亿美元的支持,并向其投资了 20 亿美元。
那么,为什么英伟达不自己成为一家云服务商,自己租赁这些计算资源?
黄仁勋:这是公司哲学问题。英伟达应做“必须做的事,但越少越好”。这意味着,我们正在构建计算平台的工作是这样的:如果我们不去做,我真心相信就不会有人去做。
如果我们不像现在这样构建 NVLink、不像现在这样构建整个技术栈、不像现在这样建立整个生态系统,如果我们没有在过去 20 年里坚持建设 CUDA——那段时间大部分都是亏钱的——如果我们没有做这一切,就不会有人去做。
如果我们没有创建所有 CUDA-X 库,使它们面向特定领域……十多年前,我们开始着眼于领域专用的库。我们意识到,如果我们不创建这些库,无论它们是用于光线追踪、图像生成还是早期 AI 的发展,那么数据处理、结构化数据处理、向量数据处理这些技术都不会存在。我们甚至为计算光刻创建了叫做 cuLitho 的库。如果我们不创建它,也不会有人来做。所以,如果我们不做这些工作,加速计算不会取得今天这样的进展。
所以,这是我们必须做的事。我们应该全力以赴,竭尽所能去完成这件事。然而,世界上有很多云服务商,我们不做也总会有人出现。英伟达遵循的理念是做“必须做的事,但越少越好”,一切都是以此为核心的。
关于云服务,如果我们不支持 CoreWeave 这样的“新型云服务商”存在,那么这些 AI 云公司就不会存在。如果没有我们的支持,CoreWeave 根本无法存在。我们不支持 Nscale,它们也不会走到今天。如果没有我们的支持,Nebius 也不会达到今天的水平。而现在,它们发展得非常好。
Q:为什么你不去挑选赢家?
当时,英伟达的图形架构完全搞错了。不是有一点错,而是彻底错了。
我们设计了一种开发者完全无法支持的架构。它永远不可能取得成功。我们本着正确的第一性原理去推导,但最终得出了错误的解决方案。
当时,所有人都会把我们排除在竞争名单之外。然而,看看我们现在的样子。
因此,我深知,要怀有足够的谦逊。不要去挑选赢家。要么让他们自己竞争,要么支持所有人。
Q:我有一点没听懂。你说英伟达并不优先支持新型云服务公司,但又列举了很多新型云服务公司,并说“如果没有英伟达的支持,它们就不会存在”。这两个说法怎么兼容呢?
黄仁勋:首先,它们需要有生存的意愿,并且主动来寻求我们的帮助。
当它们渴望存在,并且有自己的商业计划、专业技能和热情时——显然它们必须本身具备一些能力。但最终,它们需要一些投资来站稳脚跟,而我们会为它们提供支持。越早启动它们的飞轮效应越好。
你的问题是,“我们想做金融投资方吗?”答案是否定的。融资是别人的领域,我们更愿意与所有从事融资业务的人合作,而不是自己去当金融家。我们的目标是专注于我们擅长的领域,让我们的商业模式尽量简单,同时支持我们的生态系统。
比如,当 OpenAI 需要规模高达 300 亿美元的投资时,我们会出手帮助他们。世界需要他们的存在。世界渴望他们的存在,我也希望他们存在。他们现在有着强劲的增长势头。我们会支持他们并帮助他们扩展。这种投资我们会去做,因为他们需要我们。但我们并不是试图做“尽可能多的事情”,而是“尽可能少”。
Q:这个问题可能显而易见,但我们多年来一直处于 GPU 短缺的状态,现在随着模型的进步,供需缺口似乎更大了。
黄仁勋:没错,GPU 目前仍然供不应求。
Q:是的。英伟达以一种独特的方式分配稀缺资源,并非单纯的价高者得,而是更多地考虑“我们希望这些新型云服务公司能存在”,因此分配一些资源给 CoreWeave、Crusoe,以及 Lambda 之类公司。英伟达为什么会采取这种方式?你同意这样的市场描述吗?
黄仁勋:不,不,你的前提就是错的。我们在这些事情上非常谨慎。
黄仁勋:我们从来不这样做。
Q:好吧。
黄仁勋:我们从来没有。
Q:为什么不把东西卖给出价最高的人?
黄仁勋:因为这是糟糕的商业行为。你定好价格,然后让人们决定是否购买。我知道芯片行业的其他公司在需求很高时会调整价格,但我们不会。我们从来没有这样做过。你可以依赖我们。我更希望成为行业的基础,不需要客户反复猜测。如果我们给了你一个报价,那就是最终价格。如果需求暴涨,那就让它暴涨吧。
Q:另一方面,这也是为什么你和台积电有良好合作关系的原因,对吗?
黄仁勋:是的,英伟达和台积电合作即将满 30 年了。我们之间甚至没有签过法律合同。有些事情总体上讲求公平,有时候我占便宜,有时候吃亏。但总体来说,我们有着极好的关系。我可以完全信任他们,完全依赖他们。
你可以相信英伟达的是:每一年,都可以期待我们带来的进步。今年是 Vera Rubin,明年是 Vera Rubin Ultra,再之后是 Feynman,再下一年可能是尚未命名的新产品。每一年,我们都让你值得期待。放眼整个 ASIC 领域,你都很难找到另一个团队如此稳定,让单片成本每年下降一个数量级,同时保持高产的能力。
Q:一个有趣的问题。假设你们已经占据了台积电 3nm 工艺的大部分产能,并且未来在 2nm 节点时也占据大多数。你是否认为,考虑到 AI 的需求如此之大,而前沿产能无法满足需求,你们可以回头利用 7nm 这样较老工艺节点的剩余产能,比如制造一个基于 Hopper 或 Ampere 架构的芯片,但结合现有的数值优化技术和你提到的其他改进?你觉得我们会在 2030 年之前看到这样的情况吗?
黄仁勋:没这个必要。原因是,每一代架构不仅仅依赖晶体管工艺制程。工程设计、封装、堆叠、数值优化,以及系统架构上的种种改进都大有作为。
如果遇到产能不足的情况,就回到较旧的工艺节点重新设计芯片……那需要的研发投入谁也承担不起。我们可以承担向前推进的投入,但承担不起回头的代价。当然,如果情形是……做个思想实验:如果有一天我们得出结论,“我们再也无法得到更多的前沿产能”,如果真到了那天,我当然会立刻选择回去使用 7nm 工艺。
Q:有人提出过一个问题,为什么英伟达不同时并行展开多个使用不同架构的芯片项目?
比如你们可以研发像 Cerebras 那样的晶圆级芯片,或者像 Dojo 那样的大型封装,甚至一个完全没有 CUDA 的设计。你们有足够的资源和工程人才,能够并行开展这些项目。那么,为什么还要把所有的赌注押在一个篮子里?
黄仁勋:哦,我们是可以做到。但问题是,我们没有找到更好的想法。我们可以尝试这些东西,但它们并没有更好。我们在模拟器里测试过所有这些方案,结论都很明确:效果更差。所以我们不会去做。我们目前专注的项目,正是我们最想做的。
当然,如果任务类别发生了重大变化——我指的不是算法,而是真正的任务需求变化,这取决于市场的形态——那么我们可能会决定增加一些其他的加速器。
例如,最近我们引入了 Groq,我们将其整合到 CUDA 生态系统中。我们之所以这样做,是因为如今 Token 的价值已经高得惊人,这么做可以给 Token 设定不同的价格。几年前,Token 要么免费,要么不贵。但现在,客户越来越多样化,他们需要不同的性能表现。比如我们的软件工程师,如果我能提供更快响应的 Token,让他们比现在更高效,我愿意为此买单。
这个市场是最近才出现的。我认为,我们现在可以基于响应时间来细分市场。这就是我们决定拓展帕累托前沿,并创建一个响应时间更快的推理细分市场的原因,尽管它的吞吐量较低。
在此之前,提高吞吐量一直更为优先。但我们认为,未来可能会出现一种场景:即便工厂的吞吐量较低,但由于高平均售价(ASP),也有意义。
这就是我们这么做的原因。但总体而言,从架构的角度出发,如果让我拥有更多资源,我会将这些资源投资于英伟达的现有架构。
Q:我觉得这种“高溢价 Token”和推理市场细分化的想法非常有趣。
黄仁勋:是的,市场的进一步细化。
Q:好,最后一个问题。假设深度学习革命从未发生过,英伟达现在会做什么?
黄仁勋:加速计算——我们一直以来所做的事情。
我们认定摩尔定律正在放缓……通用计算在很多方面表现良好,但在许多计算任务上并不理想。
因此,我们将一种名为 GPU 的架构与 CPU 结合在一起,以加速 CPU 的计算负载。不同的代码内核或算法可以被卸载到我们的 GPU 上运行。结果是,你可以将一个应用程序的速度提高 100 倍、200 倍。
这种性能可以用在哪里?显然是在工程和科学领域,比如物理学、数据处理、计算机图形学、图像生成等等。即使今天没有 AI,英伟达依然会是一家非常庞大的公司。
这一点有着非常根本的原因,那就是:通用计算能力继续扩展的潜力基本上已经走到尽头。更进一步可行方式,是领域专用的加速器。
我们最早涉足的领域之一是计算机图形学,但还有许多其他领域,比如粒子物理和流体模拟、结构化数据处理,以及各种受益于 CUDA 技术的算法。
我们的使命一直是将加速计算带给全世界,推动那些通用计算无法实现的应用发展,帮助突破科学边界。一些早期的应用包括分子动力学、用于能源勘探的地震处理、图像处理以及计算机图形的方方面面,在这些领域,通用计算效率都太低。
如果没有 AI,我会非常遗憾。但正因为我们在计算技术上的进步,深度学习被普及到世界各地。我们让研究人员、科学家、学生都可以通过一台 PC 或 GeForce 显卡做出令人惊叹的科学研究。这一承诺从未改变过,一点点都没有。
透过这场访谈,不难发现英伟达的护城河并非单一维度的硬件垄断,而是构建在“加速计算”理念之上的全栈生态。黄仁勋多次强调的“电子到 Token”的转化效率,实质上是对算力价值化的新定义。在软件同质化焦虑蔓延的当下,英伟达通过 CUDA 生态与硬件的深度耦合,确保了即使算法迭代,底层的计算架构依然具备不可替代性。
此外,供应链的锁定策略与能源问题的警示,揭示了下一阶段 AI 竞赛的关键变量。产能瓶颈虽可通过投资解决,但能源供给将成为制约算力规模扩张的硬约束。英伟达选择不直接下场做云服务商,而是扶持生态伙伴,这种“做必须做的事,但越少越好”的哲学,既避免了与客户竞争,又最大化了生态系统的流动性。对于投资者而言,关注点或许应从单纯的 GPU 出货量,转向整个加速计算生态的能源效率与软件部署率。