英伟达斥资 200 亿美元,收购一家与其战略截然不同的公司?
近日,领投 Groq 的 Disruptive CEO 透露消息,英伟达(NVIDIA)正准备收购潜在的竞争对手,同为芯片制造商的 Groq。这笔高达 200 亿美元的巨额收购案,无疑在科技界引发了广泛关注。
此次收购引发了多角度的讨论。有人担忧英伟达进一步巩固其市场垄断地位,也有分析师对 Groq 的技术优势进行解读。但最引人瞩目的猜测是,英伟达此举是否受到了近期谷歌 TPU(Tensor Processing Unit)在人工智能计算领域表现的刺激。
对于许多读者而言,Groq 这个名字可能相对陌生,甚至容易与埃隆·马斯克的 AI 模型 Grok 混淆。然而,这家成立于 2016 年的公司,其背景实力不容小觑。据报道,Groq 在今年的估值已超过 70 亿美元,其创始人 Jonathan Ross 正是谷歌第一代 TPU 的设计者。
Groq 的核心产品 LPU(Language Processing Unit,语言处理单元)是一种新型专用芯片,与谷歌用于 AI 计算的 TPU 如出一辙,都专注于加速人工智能计算,并放弃了 GPU 的通用性。
从命名上可以看出,LPU 更加专注于语言模型,是专门为 AI 语言处理而设计的。然而,它却与主流芯片架构存在一个显著的差异——它没有 HBM(High Bandwidth Memory,高带宽内存),也就是我们常说的“显存”。
通常情况下,模型训练和推理是离不开显存的。例如,运行大型模型时,通常需要达到一定的显存容量才能顺利进行。这是因为在模型的计算过程中,参数需要从存储器中读取到计算核心,计算完成后再写回。显存作为模型参数的理想集散地,其速度快、容量适中,能够大幅提升数据传输效率。
如果缺乏显存,模型参数将存储在硬盘等速度较慢的存储介质中,这将严重拖慢计算速度,导致模型运行效率低下,即使是 TPU 在后来为了兼顾模型训练,也整合了显存模块。
然而,Jonathan Ross 坚持其初心,LPU 沿袭了早期 TPU 的理念,专注于模型推理,而完全摒弃了显存。那么,模型参数又可以存储在哪里呢?
LPU 将目光投向了离计算核心更近的 SRAM(Static Random-Access Memory,静态随机存取存储器)。然而,SRAM 的物理体积限制了其存储容量,每张卡仅能容纳几十到几百 MB 的数据,远不足以存储完整的模型参数。
为了克服这一限制,Groq 采用了大规模集群的策略,通过将千张甚至万张卡进行连接,每张卡仅存储模型的一部分参数并进行计算,最后将计算结果整合输出。这种方式极大地提升了数据的存取速度,使 LPU 在模型推理方面的速度可达 GPU 的 20 倍以上,实现了惊人的推理效率。
凭借其独特且高效的技术路线,Groq 迅速吸引了一批忠实用户。在其官方首页展示的一张统计图上,Groq 的模型推理业务已经超越了亚马逊,仅次于微软,显示出其巨大的市场潜力。
早在约一年前,就有不少人预言 Groq LPU 将对英伟达的 GPU 构成严峻挑战,并频繁进行 LPU 与 GPU 的对比分析。当时,在英伟达 GPU 占据绝对主导的市场格局下,Groq 能够实现比行业标杆快 10 倍的推理速度,无疑引起了业界的广泛关注。
当然,市场观点并非一边倒。例如,前阿里巴巴副总裁贾扬清曾进行过初步估算,显示使用 LPU 运营三年的成本是英伟达 H100 的 38 倍,运营成本更是高达 10 倍。这意味着 LPU 要想真正取代 GPU,还有相当长的路要走。
如今,英伟达的举动表明,“我全都要”已成为其策略。然而,英伟达的“收购”并非简单的支付 200 亿美元,Groq 即可归其所有。作为一个已成为行业巨头的公司,垄断问题始终是悬在英伟达头顶的达摩克利斯之剑。
因此,英伟达采用了近年来在硅谷屡见不鲜的“剥壳式收购”策略,目标是将 Groq 的核心技术和人才“挖空”。
这种模式类似于微软合并 Inflection AI,以及亚马逊收购 Adept 等案例,即只吸收技术和核心人才,留下空壳公司,普通员工则难以获益。因此,“剥壳式收购”被认为是其中最受争议的一种交易方式。
正是基于这种考量,英伟达并未公开承认收购 Groq,而是与其签署了一份非独家许可协议,授权英伟达使用 Groq 的推理技术。这相当于“卖艺不卖身”,技术仍可与第三方分享。
但实际上,Groq 的核心技术以及其首席执行官 Jonathan Ross、总裁 Sunny Madra,以及多位专注于高效 AI 推理芯片的核心工程师,都已通过雇佣的形式被英伟达纳入麾下。
归根结底,英伟达此次不惜背负骂名、冒着垄断调查的风险也要将 Groq 纳入囊中,预示着人工智能行业一个重要的趋势:在“大炼模型”的时代仍在延续的同时,模型推理部署的长尾效应正使得模型推理的需求逐渐超越模型训练。
彭博社今年 4 月的报道指出,当前训练成本占大型云计算公司数据中心支出的比例高达 60%,但分析师预测,到 2032 年,这一比例将降至约 20%。过去,企业不惜成本购买 H100 的主要目的是为了训练模型,但如今,像 Groq 这样专注于高效且经济的模型推理芯片,可能将成为各大厂商争夺的焦点。
可以说,英伟达通过此次曲线收购,成功弥补了其在非 HBM 架构上的最后一块短板。这既是对谷歌 TPU 路线的一次迟到致敬,也更加明确地表明,无论是模型训练还是模型推理,英伟达这位“大胃王”都不会放弃任何一分算力税。











