Rain科技7月20日报道,据媒体消息,上海人工智能实验室(上海AI实验室)近日发布了DeepLink超大规模跨域混训技术方案,并已成功在多个实际项目中落地。该方案能够支持千公里范围内的多个智算中心进行跨域、长距离、稳定混合训练,以支持千亿参数级别的大模型。
这项技术在全球范围内首次实现了对长距离、跨域、异构智能算力的有效整合。其重要意义在于,不仅能够有效解决当前全国范围内算力资源分布不均、利用率不高的问题,更能显著降低人工智能行业对特定芯片的依赖。一旦遭遇供应链波动,该技术将为AI产业提供至关重要的算力保障,有效规避“卡脖子”风险。
据上海AI实验室介绍,今年2月,实验室联合十余家合作伙伴在上海成功构建了超大规模跨域混训集群的原型,并完成了千亿参数大模型的连续20天不间断训练。此后,实验室进一步融合了中国联通的AINET算力智联网,成功打通了连接上海与济南两地、跨越1500公里的智算中心,实现了千亿参数大模型的跨域混合训练。
“跨域混训”的核心理念是将分布在不同地理位置、采用不同芯片架构(即异构)的多个算力集群互联起来,实现协同训练同一个AI模型。这种“跨域+异构”的模式虽然能够汇聚更强大的算力资源,但技术挑战异常艰巨。此前,国内外均未有成功应用于生产级模型训练的先例,互联障碍往往导致训练效率低下甚至训练失败。上海AI实验室此次的突破,可谓是“零的开始”。根据实际测试数据,其与中国联通合作的跨域混训项目,等效算力水平已达到单集群单芯片算力的95%以上。
当前,我国在算力建设方面取得了快速发展,但也显现出区域间算力资源分布和使用不均衡的现象,例如西部地区部分算力资源存在闲置。与此同时,智算中心的硬件架构呈现出日益多样化的趋势。在此背景下,整合并盘活这些跨域、异构的算力资源,具有重要的战略价值。
DeepLink方案的最大创新点在于其采用的“3D+PS”高内聚低耦合架构。其本质上是一种“以算法换带宽”的策略。该方案能够将大规模的训练任务精准分发至千里之外的智算中心,通过算法层面的创新,大幅降低对网络带宽的要求,仅需普通的专线网络即可支撑大模型的高效训练。此外,该方案还具备出色的高容错性,即使某个地域的节点发生故障,整体的训练任务仍能持续进行。
除了中国联通,上海AI实验室还积极与中国电信、商汤、仪电等多家智算平台展开合作。在融入中国电信息“壤算网”后,在不足10Gbps的带宽条件下,成功实现了包括北京、上海、贵州在内的三地智算中心的互联和大规模模型混合训练,其等效算力依然保持在90%以上。从技术理论上讲,DeepLink能够支持动态配置、跨越数千公里的跨域混训,这意味着国内任意两个智算中心都可以通过此方案实现算力的有效整合。
在中国联通AINET算力智联网的支持下,该方案在长距无损传输协议和硬件架构方面得到了保障,而DeepLink则在算法和软件层面实现了关键突破。双方的合作探索出了一条高效利用全国算力资源的新路径:将分散且“碎片化”的算力聚零为整,形成为高价值的资源集合。展望未来,面对AI模型规模激增对算力提出的革命性需求,DeepLink方案有望避免新建成本高昂的超大型智算中心,而是通过“低成本组合”现有的算力中心来满足训练需求。
上海AI实验室表示,下一步将进一步深化DeepLink技术的应用,积极构建算力生态,拓展更广泛的应用场景,并推动该方案被更多的服务商所整合。其战略目标是让用户能够便捷地在全国范围内选择高性价比的算力资源,从而有力地支持全国算力一体化布局。同时,实验室还将针对AI大模型的混合推理、分布式强化学习等更多元化的算力需求,持续优化和完善其技术方案。
