WAIC2024 超越边界:探索下一代大模型的基础研究
作者/ IT 时报记者沈毅斌
编辑/孙妍
大语言模型、视觉大模型和多模态大模型等以 Transformer 为核心架构的 AI 技术正在以前所未有的速度发展,从百万参数向万亿参数的飞跃发展。它们在文本、图像、音频和视频等方面展现出强大的处理能力,正在影响着人类社会的各个层面。然而,算力需求、功耗和数据质量等挑战也随之而来,让人们再次站在“十字路口”。
大模型需要“记忆分层”
目前的大模型虽然能够进行联想推理,但与人类大脑相比,它们还缺乏跨越多个尺度的表征层级能力。而实现这一能力的关键在于“记忆分层”,也就是将信息分层处理为隐性记忆、显性记忆和工作记忆。为了实现下一代大模型的进一步智能化,同样需要进行分层处理。
中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界:探索下一代大模型的基础研究”论坛上表示,下一代人工智能的技术框架可以分为四层:第一层是通用 AI 数据库,它将统一不同类型的数据,并主动参与数据分析和决策过程;第二层是通用模型和专用知识库,通用模型提供强大的信息处理能力,而专用知识库则提供专业领域的深度和精准度;第三层是基于通用模型和专用知识库构建的智能体(小模型),它们能够高效地完成特定任务;第四层则是通过整合多个小模型形成最终的大模型结构。
这一框架旨在通过分层处理,降低成本和功耗,更好地利用数据,最终实现更高效、更智能的大模型。
大模型发展的三大定律
华为昇腾计算业务 CTO 周斌指出,大模型的发展离不开三大定律:第一定律是 Scaling Law(尺度定律),模型的大小决定了模型的能力上限,更大的模型意味着更强的能力;第二定律是 Chinchilla Law(龙猫定律),在有限的计算资源下,需要找到模型参数量和数据量之间的最优比例;第三定律是 Emergent Abilities(涌现能力),指的是当计算量达到一定阈值后,模型才会出现新的能力。周斌认为,在达到百万亿参数级之前,Scaling Law 将持续奏效,而突破百万 tokens 的超长序列将成为大模型主流标配,这将带来更大的模型、更多的数据和更多的计算需求。
下一代算力的挑战
下一代大模型的发展需要巨大的投入,算力、能源和数据等方面的需求将会带来诸多挑战。训练单模型的算力规模呈现指数级增长,从 GPT-2 到 GPT-4,训练算力增加了 3000~10000 倍,预计在 2028 年达到顶峰。数据方面,高质量语言数据预计在 2026 年前耗尽,低质量数据可以支持到 2040 年左右,图像数据集预计在 2030 年到 2060 年之间耗尽。此外,随着 AI 模型增大和集群规模增长,互联带宽、集群故障率等问题也需要克服。
AI 研究 AI 是新奇点
下一代大模型发展的新奇点在哪里?周斌认为,AI 研究自动化可能会迎来智能爆炸时代,利用 AI 来自动研究 AI,将推动智能计算技术的发展,并带来计算介质、软件使能、计算架构、工艺工程等方面的改变。这些改变将大幅提升带宽、计算速度、计算能效和信息压缩等方面的能力,使下一代大模型拥有更强的智能计算能力。
周斌还提出了打造下一代大模型的思路:塑造新的模型结构、制造混合模型、将专业知识融入 AI 能力、提升在线学习和强化学习能力等。这些思路将为下一代大模型的发展提供方向,并推动人工智能技术不断进步。