自从AI大模型问世,英伟达凭借其强大的GPU技术,在AI领域占据了主导地位,赚得盆满钵满。然而,随着国际地缘政治局势的日益紧张,中国高端AI芯片的发展也遭遇了前所未有的阻碍。
7月22日,英伟达遭遇了一场“冰火两重天”:一方面,美国政府正在考虑新的贸易限制,计划阻止英伟达向中国市场推出专门针对中国市场的“特供版”HGX-H20 AI GPU,一旦限制正式实施,英伟达将损失约120亿美元的收入;另一方面,英伟达也并未放弃中国市场,正在积极为中国市场打造新的“特供版”GPU,以其最新推出的“Blackwell”架构为基础,打造面向中国市场的B20。
美国的行动表明,其意图是要全面切断中国获取高端AI芯片的渠道,从而在AI领域取得优势。
面对这种局面,中国又该如何应对呢?近年来,中国开始将目光转向另一种AI芯片架构——TPU(张量处理单元),并积极探索新的解决方案。
国产TPU崭露头角
众所周知,AI大模型的训练和应用主要分为两个阶段:训练和推理。
推理芯片较为常见,而训练芯片相对少见。这是因为AI模型的训练需要消耗大量的计算资源,并需要处理大量并行任务,因此GPU成为了当前AI训练的主流选择。
TPU,全称Tensor Processing Unit,是一种专门针对张量运算设计的ASIC芯片,由谷歌于2016年推出首款产品。在深度学习领域,张量(多维数组)是不可或缺的数学工具。TPU的设计目标就是高效地处理这些张量运算。
TPU内部集成了大量的矩阵运算单元,可以并行处理大量的矩阵运算,从而显著提高计算效率。
与GPU相比,TPU的功能更为专门,但对于AI模型的训练任务来说,TPU的性能依然绰绰有余。
简单来说,与同期的CPU和GPU相比,TPU可以提供15~30倍的性能提升,以及30~80倍的能效提升。
早在2018年,国内AGM Micro公司就推出了TPU推理技术的授权,但后来这家公司逐渐淡出了TPU相关的消息发布。
最近,一家名为中昊芯英的国产公司展出了其首款高性能TPU AI训练芯片,名为“刹那”。
“刹那”于去年成功量产,并在全国多个智算中心交付使用。该芯片采用1024片芯片高速片间互联的技术,构建了大规模智算集群“泰则”。“泰则”的系统集群性能远远超过传统GPU数十倍,可以支持超千亿参数AIGC大模型的训练和推理。
中昊芯英创始人杨龚轶凡曾任职于谷歌,并深度参与了谷歌TPU 2/3/4的设计与研发。在他看来,TPU天生适合AI大模型的架构需求。
碳纳米管TPU,新材料与AI芯片的融合
近期,又传来了另一则与TPU相关的消息。
北京大学电子学院碳基电子学研究中心的彭练矛-张志勇团队在下一代芯片技术领域取得重大突破,成功研发出全球首个基于碳纳米管的张量处理器芯片(TPU)。
高能效计算芯片的发展面临着两个重大挑战:一是传统冯诺依曼架构已经难以满足高速、高带宽的数据传输和处理需求;二是构建芯片的硅基互补金属氧化物半导体晶体管,在尺寸缩减方面遇到了瓶颈,功耗不断增加,迫切需要开发超薄、高载流子迁移率的半导体材料作为沟道材料。
碳纳米管具有优异的电学特性和超薄结构,基于碳纳米管的晶体管已经展现出超越商用硅基晶体管的性能和功耗潜力。为了充分发挥芯片的算力和能效,将新材料与器件结合至关重要。北大的这一研究成果正是围绕这个方向展开的。
作为全球首个基于碳纳米管的张量处理器(TPU)芯片,该芯片可以实现高能效的卷积神经网络运算。简单概括如下:
工艺:该芯片采用2bit MAC(乘累加单元),3微米工艺技术节点,集成3000个碳基晶体管,可以实现图像轮廓识别、提取等功能,图像轮廓提取的准确率达到100%;
架构:该芯片采用脉动阵列架构设计,可以实现高效的数据复用,大幅减少张量运算所需的数据存储和传输操作,精准匹配了神经网络的运算特点;
识别率:该芯片上搭建了5层卷积神经网络,可以实现手写数字识别功能,理论准确率达到90%,实际准确率可达86%;
功耗:芯片功耗仅为295µW,器件数量也是新型卷积加速硬件中的最低值;
实际应用效果:该芯片可以使用180 nm碳基技术进行流片加工,仿真结果表明,碳基神经网络加速芯片可以在1 V电压下工作,最高主频为850 MHz,能效可达1TOPS/w。

“群殴”英伟达
相比其他AI芯片,TPU 的关注度确实更高。今年6月,有消息称,生成式AI 技术大厂 OpenAI 为了自研 AI 芯片,新招募的研究人员几乎都是来自谷歌 TPU 团队的前员工。可以说,在大型模型训练和推理方面,TPU 是相对成熟的解决方案。
作为 TPU 的发明者,谷歌推出 TPU 的目标就是为了提供英伟达 GPU 的替代方案。在最近的 Google I/O 2024 上,谷歌推出了第六代 TPU,性能有了显著提升。
与 TPU v5e 相比,Trillium TPU 的峰值计算性能提高了 4.7 倍。为了实现更高的性能,谷歌投入了大量精力扩展执行计算的矩阵乘法单元或 MXU 的大小,并提高了其整体时钟速度。此外,Trillium GPU 的高带宽内存容量和带宽是原来的两倍,而芯片间互连带宽也增加了一倍。
为了让客户更放心地替代英伟达,谷歌也计划用 TPU 替换掉 GPU——可能在今年年底停止外部 AI 算力芯片的采购,转而完全依赖自研的 TPU。谷歌的算力总量,结合自研 TPU 和先前的芯片采购,预计将占全球算力总量的 25%。
总而言之,现在的英伟达面临着四面楚歌,各家厂商都希望取代它。随着英伟达的特供版芯片接连被限制,中国市场似乎正在逐步放弃对英伟达的依赖,转向采购国产芯片。然而,在 AI 芯片市场上,没有稳赚不赔的生意,前段时间就有一家日本 AI 芯片厂商宣布解散。由此可见,TPU 的立足之本是更高的能效比和完善的软件生态。在这一方向上,中国正在不断努力。