中国发展AI不能靠“堆芯片”

美国凭借其在软硬件方面的优势，在以规模取胜的全球人工智能（AI）发展道路上飞速前进。美国富豪马斯克最近在社交媒体上宣布，他旗下的 AI 初创公司 xAI 已经开始使用由 10 万块 H100 GPU 组成的“孟菲斯超级集群”进行 AI 训练，宣称这是“全球最强大的 AI 训练集群”。中国是否应该效仿美国所引领的技术路线？

近期，由中国智能计算产业联盟与全国信标委算力标准工作组共同主办的 2024 中国算力发展专家研讨会，汇聚了多位院士专家，他们针对这一议题发表了各自的见解。

中国科学院院士陈润生在研讨会上指出：“人工智能大模型是新质生产力的代表，大模型与超级计算的融合发展至关重要。我国需要认真规划和布局。”中国科学院计算技术研究所研究员张云泉也提到，大模型的快速发展展现出新质生产力的特质，但与此同时也面临算力瓶颈。鉴于中国在超级计算领域拥有深厚的技术积累，他希望超智融合（超级计算与以大模型为代表的智能计算的融合）能够有效解决这一挑战。国家信息中心信息化和产业发展部主任单志广解释道：“超智融合是随着当前基础算力、智算算力、超算算力等应用的多元化发展而产生的，它的关键在于能否利用混合型算力资源或融合型算力体系满足多种不同算力的应用需求。”

中国科学院院士钱德沛预测了未来超智融合的发展进程，他认为将会经历三个阶段：for AI、by AI 和 being AI，从硬件到软件将全面进化，以适应并推动人工智能技术的发展。

在第一个阶段 for AI，重点在于对现有计算机系统的改造和升级，发展专用硬件，确保高效支持和执行 AI 任务，为人工智能研究提供坚实的基础设施。在第二个阶段 by AI，将利用 AI 改造传统计算，一方面用 AI 方法解决传统超算问题，另一方面 AI 也将影响传统计算机的结构，这种趋势将会逐渐明显。在最终的 being AI 阶段，计算机系统将呈现出内在的智能特性，人工智能不再是外加的能力，而是成为计算机的核心属性和基本组成部分。届时，计算能力或智能化水平可能会远远超过我们今天的超算或智算。

陈润生注意到，目前科学界和产业界一直在努力解决超算和智算的融合问题。例如，英伟达最新推出的 GB200 架构，实际上是将两块 GPU 和一块 CPU 结合在一起，在一定程度上，可以看作是将智算和超算的优势相结合，在两块 GPU 执行机器学习的过程中，通过 CPU 提供高速数据传输。但他认为，这种架构并没有从根本上解决效率问题。“超算与智算的结合是必然趋势，应该有机融合，而不是简单地将它们拼凑在一起。”

中国工程院院士郑纬民也表示，大模型的开发、训练、微调和推理各个环节都离不开算力，算力成本占整体开销的很大比例，特别是在训练阶段，占比高达 70%，而在推理阶段更是高达 95%。因此，算力成为支撑大模型发展的关键因素。

针对中国当前的大模型热潮以及跟随美国“堆规模”的技术路径，中国院士专家们提出了各自的观点。钱德沛表示，中国现在研发的大模型数量和种类比美国还多，都在致力于通用人工智能，但我们在硬件方面受到美国的严格限制，而且用于大模型训练的数据质量和数量也相对较少。“在这种情况下，我们研发的大模型能够比美国好吗？我认为我们应该符合中国实际情况，不能完全照搬美国的做法。”

陈润生也认为，中国现在出现的大模型基本是在美国提出的大模型和算法基础上进行改进，但对整个大模型的基础理论关注度不够。他在研讨会上提出，对比传统超算采用的局部式记忆模式，智能计算展现出根本性的差异——信息的分布式存储。这种存储方式模仿了人脑神经网络的复杂结构，通过大规模、密集互联的芯片网络承载着日益庞大的模型。然而，如何有效地将人类知识嵌入这些复杂系统，以及信息如何在系统中进行分布式存储，其背后的算法和技术理论仍待进一步探索。“随着模型规模的无节制扩大，不可避免地会出现能源枯竭问题，因此仅仅靠增加芯片，依靠提高系统复杂度来解决大模型的存储问题并不完全可取。”

因此，陈润生认为，未来智能计算应该参考“人类智能”，即模拟人脑的运行机制。人脑体积很小，能耗只有几十瓦，但它所产生的智能超过了目前最先进的、能耗相当于一座城市的 AI。“大模型与智算的发展，不仅要改进应用层面的模型和算法，还需要从基础理论角度取得突破。现在大模型的发展只是完成了 10%，还有 90% 的工作没有完成。我相信大模型绝不会仅仅依靠增加芯片数量来实现，它应该像人类的大脑一样学习，将空间复杂度、时间复杂度压缩到更小的水平，能耗降低到更低的水平。我认为最基本的问题是要研究目前完成智算的空间复杂度基础理论。如果我们在基础理论方面有所突破，我们就能完成根本性的原创性创新。”

北京应用物理与计算数学研究所研究员袁国兴认为，我们不能指望一种通用大模型能够解决各行各业的问题。从实际情况来看，不同的应用需要不同的技术，要求使用不同的算法，对计算能力也有不同的要求。例如，在科学计算方面，对计算精度的要求越来越高，而随着计算机规模的扩大，数据越来越多，可信度也在不断下降。美国国家航空航天局（NASA）也提出了类似的观点，他们对计算精度提出了很高的要求。因此，未来不同的应用将会拥有不同的大模型、不同的计算，解决不同的问题。现在的大模型对计算精度和算法的要求完全不同。

中国信通院云计算与大数据研究所所长何宝宏补充说：“计算和训练对底层基础设施的要求并不一样，还需要判断在什么场景下要屏蔽差异性，在什么场景下要体现差异性。”

需要发展主权级大模型

张云泉表示，美国最近采取了一系列措施试图在人工智能发展方面对我国进行“卡脖子”，包括禁售高端 GPU、终止共享大模型源代码以及中断生态方面的合作等。同时，现在大模型的运算规模达到 1 万块 GPU，甚至 10 万块时，就需要通过发展大模型专用超算来突破能耗墙、可靠性墙、并行墙等技术瓶颈。在这种背景下，为了在短期内突破大模型算力瓶颈，中国可以走一条路：利用过去二十多年积累的先进超算技术，研发大模型专用超算，克服大模型算力瓶颈问题，使我国能够紧跟全球大模型最先进水平，不至于落后。

张云泉在介绍超智融合体系下的“主权大模型”计划时表示，我国在超算领域拥有深厚的技术积累，近年来又投入巨资发展智能算力，聚焦建立以超智融合算力体系为中心，以应对大模型的算力需求，希望能够最大限度地利用超算技术优势来破解算力挑战。根据“主权级大模型”计划的部署，“主权级大模型”创新联合体将依托国家超算、中科院和全国重点院校的知名教授团队、智能芯片企业、大模型解决方案企业等，共同打造类似 OpenAI 的开放组织，由非营利性部门组织“主权级大模型”研发，由营利性部门组织“主权级大模型”落地。他建议道，超算是“国之重器”，需要用来攻克最大、最难的挑战。主权级大模型是一个能够支撑国家发展的根模型，并非一般的大模型。类似的国家级超级大模型也受到其他国家的高度重视，例如，美国微软公司携手 OpenAI 发布了计划投入 1000 亿美元用于开发全新人工智能超级计算机的计划，日本最近也宣布要投入巨资发展国家级大模型。

陈润生认为，根据中国目前的基础条件以及大模型必然要发展的趋势，我们完全跟随西方的做法是不现实的，也很难在短期内赶超。因此，找到一条发展主权级大模型的道路更为重要。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

中国发展AI不能靠“堆芯片”

相关推荐

发表回复