美国依靠其在软硬件方面的优势,不断推动人工智能发展,并试图通过规模效应打造全球最强大的AI。近日,美国富豪马斯克旗下AI初创公司xAI宣布,已开始使用由10万块H100 GPU组成的“孟菲斯超级集群”进行AI训练,并将其号称“全球最强大的AI训练集群”。
中国是否应该跟随美国这条技术路线呢?
近日,在由中国智能计算产业联盟与全国信标委算力标准工作组共同主办的2024中国算力发展专家研讨会上,多名院士专家对这个问题发表了各自观点。
超智融合的三个阶段
中国科学院院士陈润生指出,人工智能大模型是新质生产力的重要代表,大模型与超级计算的融合发展至关重要。中国需要认真布局,并制定相应的策略。
中国科学院计算技术研究所研究员张云泉表示,大模型的快速发展体现了其作为新质生产力的潜力,但目前也面临着算力瓶颈。考虑到中国在超算领域的技术积累,他认为超智融合(即超级计算与以大模型为代表的智能计算进行融合)能够有效化解这一挑战。国家信息中心信息化和产业发展部主任单志广解释说,“超智融合是随着当前基础算力、智算算力、超算算力等应用多元化发展而诞生的,它旨在利用混合型算力资源或融合型算力体系,满足多种不同算力的应用需求。”
中国科学院院士钱德沛预测了未来超智融合的演进路径,他将其分为三个阶段:for AI、by AI和being AI。在第一阶段for AI,重点在于改造和升级现有计算机系统,发展专用硬件,确保高效地支持和执行 AI 任务,为人工智能研究提供坚实的硬件基础设施。在第二阶段by AI,将利用 AI 改造传统的计算,一方面利用 AI 方法解决传统超算问题,另一方面 AI 也将影响传统计算机的结构,这一趋势日益明显。在最终的 being AI 阶段,计算机系统将呈现内在的智能特性,人工智能不再是一种外加的能力,而是成为计算机的核心属性和基本组成,其计算能力或智能化水平将远远超过现在的超算或智算。
陈润生还注意到,目前科学界和产业界都在致力于解决超算与智算的融合问题。例如,英伟达最新推出的 GB200 架构,实际上是将两块 GPU 与一块 CPU 相结合,在一定程度上融合了智算和超算的优势。然而,他认为这种架构并没有从根本上解决效率问题。他强调,“超算与智算的结合是必然的,它们将有机融合,而不是简单地拼凑在一起”。
中国工程院院士郑纬民也表示,大模型的开发、训练、微调及推理各个环节都离不开算力,而算力成本占整体成本比例较大,尤其是在训练阶段,占比高达 70%,推理阶段更达 95%。因此,算力成为支撑大模型发展的关键要素。
借鉴“人类智能”
针对目前中国的大模型热潮以及跟随美国“堆规模”的技术路线,中国院士专家们提出了各自的观点。钱德沛认为,中国现在的大模型数量和种类比美国还要多,也都致力于发展通用人工智能。然而,中国在硬件方面受到美国的严格限制,用于大模型训练的数据质量和数量也相对较少。“在这种情况下,我们开发的大模型能比美国的更好吗?我认为我们应该根据中国国情,不能完全照搬美国人的做法。”
陈润生也认为,目前中国出现的大模型基本上是在美国提出的大模型和算法上进行改进,对整个大模型的基础理论考虑较少。他指出,与传统超算采用的局域式记忆模式不同,智能计算展现出根本性的差异——信息的分布式存储。这种存储方式借鉴了人脑神经网络的复杂结构,通过大规模、密集互联的芯片网络来承载日益庞大的模型。然而,如何将人类知识有效地嵌入这些复杂系统,以及信息在系统中如何分布存储,其背后的算法与技术理论尚未得到充分探索。他强调,“随着模型规模的无节制扩张,能源耗竭问题无法避免,因此一味地增加芯片,依靠系统复杂度的增加来解决大模型的存储问题并非最佳方案。”
基于上述分析,陈润生认为,未来的智能计算应该参考“人类智能”,模拟人脑的运行机制。人脑的体积非常小,能耗只有几十瓦,但它产生的智能却超过了目前最先进、能耗相当于一座城市的 AI。他指出,“大模型与智算的发展,不只是应用层面的模型和算法上的改进,还需要从基础理论角度有所突破。现在的大模型仅仅发展了 10%,还有 90% 的工作尚未完成。我相信,大模型绝非通过简单地堆砌芯片实现的,它一定会像人脑一样学习,压缩空间复杂度、时间复杂度,降低能耗。因此,最基本的问题是要研究完成智算所需的当前空间复杂度的基础理论。如果我们在基础理论上有所突破,就能实现根本性和原始性创新。”
北京应用物理与计算数学研究所研究员袁国兴认为,不可能指望一种通用大模型能解决各行各业的问题。实际上,不同的应用有不同的技术、算法和对计算能力的要求。例如,在科学计算方面,对计算精度的要求越来越高,而随着计算机规模的扩大,数据量不断增加,可信度也在下降。美国国家航空航天局 (NASA) 也表达了类似的观点,他们对计算精度提出了非常高的要求。因此,未来不同的应用将拥有不同的模型、算法和计算能力,来解决不同的问题。现阶段的大模型对计算精度和算法的要求完全不同。
中国信通院云计算与大数据研究所所长何宝宏补充说:“计算和训练对底层基础设施的要求并不相同,需要判断在什么场景下要屏蔽差异性,在什么场景要体现差异性。”
发展主权级大模型
张云泉表示,美国最近采取了一系列措施试图在人工智能发展方面对中国进行“卡脖子”,包括禁售高端 GPU、终止共享大模型源代码以及中断生态方面的合作等。同时,目前大模型的运算规模已经达到 1 万块 GPU,甚至 10 万块,这就需要发展大模型专用超算来突破能耗墙、可靠性墙、并行墙等技术瓶颈。在此背景下,中国有一条路可以走,那就是利用过去二十多年积累的先进超算技术,研发大模型专用超算,克服大模型算力瓶颈问题,确保紧跟全球大模型最先进水平,避免落后。
在介绍超智融合体系下的“主权大模型”计划时,张云泉表示,中国在超算领域拥有深厚技术积累,近年来又投入巨资发展智能算力,重点建立以超智融合算力体系为中心的体系工程,以应对大模型的算力需求,最大化利用超算技术优势破解算力挑战。按照“主权级大模型”计划的部署,“主权级大模型”创新联合体将依托国家超算、中科院和全国重点院校的知名教授团队、智能芯片企业、大模型解决方案企业等共同打造类似 OpenAI 的开放组织,由非营利性部门组织“主权级大模型”研发,由营利性部门组织“主权级大模型”落地。他建议说,超算是“国之重器”,需要用来攻克最重大、最困难的挑战。主权级大模型是能够支撑国家发展的根模型,不是一般的大模型。类似的国家级超级大模型也受到了其他国家的高度重视,例如美国微软公司携手 OpenAI 发布了计划投入 1000 亿美元建设全新人工智能超级计算机的计划,日本最近也宣布将投入巨资发展国家级大模型。
陈润生认为,根据中国目前的基础条件以及大模型必然要发展的趋势,完全跟随西方的做法是不现实的,也很难在短期内赶超。因此,找到发展主权级大模型的道路更为重要。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。