都说资本市场从来不缺故事,最近A股大神们讲的故事都绕不开Deepseek,各种“小作文”全方位吹捧国产大模型的技术路线,相信大家已经听腻了。
看着Deepseek的底细快被扒光了,我心想大概不会再有新东西可以炒作了吧,各上市公司的股价也能稍微平静一下了。
结果这两天又在微博上看到一些标题党文章,说什么“Deepseek只是开胃菜,LPU才是真正的氢弹级突破!”
一听“氢弹”都来了,还是点进去看看。我也很好奇,这号称能扼杀NVIDIA前程的LPU芯片到底是什么来头。
不过在连续看了几篇文章、读了几篇研报之后,我觉得这芯片远没有股票专家们吹得那么厉害。
首先给大家介绍一下“LPU”到底是个什么。
它并不是什么新鲜事物,特指去年美国Groq公司发布的一款AI处理器,中文名字叫做“语言处理单元”,主要用于大语言模型的推理计算。
值得一提的是,目前暂时没有任何国产化的消息。说实话,这种概念即使用来炒A股,也有点过于超前了。
它如今又被大家拿出来炒作,还是因为有人研究了Deepseek的低成本方案,发现他们仅仅在CUDA驱动的PTX层做了一些优化,就实现了内存和通信效率的大幅提升。
那么,如果再“为算法单独设计硬件”,效率的提升会更加可观。
于是大家突然想开了,之前做AI就往上堆显卡的做法是自己把路走窄了。现有的硬件和软件都能再挖掘一下,就能起到事半功倍的效果。
软件方面Deepseek已经行动了,硬件方面,研究员们翻箱倒柜找出来的就是LPU了。
作为专门针对大语言模型推理设计的硬件,在发布之初,官方宣称它的推理速度是NVIDIA GPU的十倍,成本却仅有NVIDIA的十分之一。
它的高效率实现原理其实并不复杂。LPU把通用GPU里头的高带宽内存(HBM)换成了容量更低、但速度更快的静态随机内存(SRAM),对于大语言模型这种需要频繁读取内存的计算来说,推理速度自然就会快不少。
给大家举个例子,HBM就好比是原本的双向八车道,虽然很宽但什么车都能跑、红绿灯也多,反而容易堵在一起;而SRAM就像是双向两车道、只能跑公交的快速路,虽然车道变少了,但通行效率却更高。
听起来有点意思吧?
众所周知,显卡原本是给游戏玩家们准备的,误打误撞整了个CUDA之后被人发现很适合做AI计算,老黄(黄仁勋)也顺水推舟布局了一下通用GPU和AI运算,结果就造就了如今的万亿帝国。
这LPU听名字就是给大模型准备的,这岂不是比NVIDIA的起点还要高?

好了,说到这里我要开始泼冷水了:事实上,当前LPU的局限性可能比你想象的要多,未来如何发展还不好说,但至少现在看来想替代通用GPU还差远了。
为了解释这个问题,我们首先要讲一个看起来似乎不相关的例子——关注加密货币圈的朋友们可能都知道有一种叫做ASIC矿机的设备。
这里所谓的“ASIC”是一种专为某种特定用途定制的芯片。用于挖矿的ASIC直接在硬件层面实现了某种挖矿算法,这样一来,挖矿的效率要比显卡高上不少,费用也更便宜。
你看,更低成本、更高效率、专用芯片,听起来和LPU好像是一个路子?
但是直到最后,显卡都没有被“矿场”淘汰,还是老黄自己出手,通过技术手段限制了40、50系显卡在挖矿时的HASH算力。
这是为什么呢?因为ASIC矿机的计算效率确实高,但代价就是“专用”。
前面说到了,ASIC芯片在硬件设计层面就匹配了挖矿的算法,所以挖比特币的ASIC矿机只能挖比特币,挖以太坊的只能挖以太坊。
如果矿主们想换个币种挖,那就得连机器一起换了才行。
这就有点尴尬了:要是哪天比特币不值钱了,矿主囤的比特币矿机岂不都成了废铁?
后来加密货币逐渐涌现,每天都可能出现新的币种,但要每天都设计一款新的ASIC挖矿芯片可就没那么容易了。
现在大家应该明白了,显卡相比矿机看似毫无优势,却能经久不衰,主要原因就在于显卡更“通用”。
即使NVIDIA 40系显卡已经不再适合挖矿了,矿场上还是有很多30系的显卡在发光发热。
而LPU这边的情况也差不多,正因为它是一款专用于大语言模型推理的芯片,所以如果要让它处理图片视频之类的任务,就没有优势了。
可如今人们都希望AI能做更多的事情,除了推理之外,还需要它能够识别物品、听懂语言。完全依靠LPU来支撑AI算力显然是不现实的。
而且在AI训练方面,内存较小的SRAM也难以胜任,最终还是需要显卡出马。
此外,“ASIC矿机”能够引爆市场还有一个重要的原因——它不仅仅比显卡高效,而是比显卡的效率高了一千多倍!比特币ASIC矿机发展到最后,挖矿效率甚至比显卡高了上万倍!
但目前的LPU芯片远没有达到如此夸张的效率提升。Groq官方声称效率提升了一百多倍,也有新闻报道说提升了十几倍。无论是哪个结论,都远不如当年ASIC矿机的水平。谁能保证LPU未来不会沦为另一种不值钱的“矿渣”呢?
还有各家资本都在侃侃而谈的成本问题。实际上,早在去年,我们的同行——《芯东西》也曾报道过LPU芯片,其中引用了前阿里巴巴副总裁贾扬清做过的一个粗略测算。
根据三年时间的运营成本来计算,Groq LPU的采购成本约为NVIDIA H100的38倍,运营成本则高达10倍。
看到这里,相信大家对LPU芯片的现状已经有了一个比较清晰的认识。
我并不认为LPU一无是处。毕竟,当年NPU(神经网络处理器)刚推出的时候,很多人也不太看好。但现在,几乎所有消费级处理器芯片内部都会集成一个小型NPU。
但我觉得现在就吹捧LPU可能还为时过早,特别是那些A股“大神”们借着LPU的概念就开始“荐股”,这让我很纳闷,不知情的人还以为LPU是中国公司生产的。
这实在有些不厚道。
更何况,当前的AI行业仍然充满不确定性——Deepseek的低成本模式会不会昙花一现?现在的AI模型会不会被更高效的模型取代?下一代GPU会不会有划时代的技术突破?这些问题谁也无法给出确定的答案。
当然,未来的不确定性也可能对LPU有利。但现阶段,我们还是不要轻信A股“大神”们的夸大宣传。如果他们真的能准确预测未来,恐怕早就不会在这里推荐LPU概念股了。








