下一代大模型的新奇点是什么？

WAIC2024 超越边界：探索下一代大模型的基础研究

作者／ IT 时报记者沈毅斌

编辑／孙妍

大语言模型、视觉大模型和多模态大模型等以 Transformer 为核心架构的 AI 技术正在以前所未有的速度发展，从百万参数向万亿参数的飞跃发展。它们在文本、图像、音频和视频等方面展现出强大的处理能力，正在影响着人类社会的各个层面。然而，算力需求、功耗和数据质量等挑战也随之而来，让人们再次站在“十字路口”。

大模型需要“记忆分层”

目前的大模型虽然能够进行联想推理，但与人类大脑相比，它们还缺乏跨越多个尺度的表征层级能力。而实现这一能力的关键在于“记忆分层”，也就是将信息分层处理为隐性记忆、显性记忆和工作记忆。为了实现下一代大模型的进一步智能化，同样需要进行分层处理。

中国科学院院士、北京科学智能研究院理事长鄂维南在“超越边界：探索下一代大模型的基础研究”论坛上表示，下一代人工智能的技术框架可以分为四层：第一层是通用 AI 数据库，它将统一不同类型的数据，并主动参与数据分析和决策过程；第二层是通用模型和专用知识库，通用模型提供强大的信息处理能力，而专用知识库则提供专业领域的深度和精准度；第三层是基于通用模型和专用知识库构建的智能体（小模型），它们能够高效地完成特定任务；第四层则是通过整合多个小模型形成最终的大模型结构。

这一框架旨在通过分层处理，降低成本和功耗，更好地利用数据，最终实现更高效、更智能的大模型。

大模型发展的三大定律

华为昇腾计算业务 CTO 周斌指出，大模型的发展离不开三大定律：第一定律是 Scaling Law（尺度定律），模型的大小决定了模型的能力上限，更大的模型意味着更强的能力；第二定律是 Chinchilla Law（龙猫定律），在有限的计算资源下，需要找到模型参数量和数据量之间的最优比例；第三定律是 Emergent Abilities（涌现能力），指的是当计算量达到一定阈值后，模型才会出现新的能力。周斌认为，在达到百万亿参数级之前，Scaling Law 将持续奏效，而突破百万 tokens 的超长序列将成为大模型主流标配，这将带来更大的模型、更多的数据和更多的计算需求。

下一代算力的挑战

下一代大模型的发展需要巨大的投入，算力、能源和数据等方面的需求将会带来诸多挑战。训练单模型的算力规模呈现指数级增长，从 GPT-2 到 GPT-4，训练算力增加了 3000~10000 倍，预计在 2028 年达到顶峰。数据方面，高质量语言数据预计在 2026 年前耗尽，低质量数据可以支持到 2040 年左右，图像数据集预计在 2030 年到 2060 年之间耗尽。此外，随着 AI 模型增大和集群规模增长，互联带宽、集群故障率等问题也需要克服。

AI 研究 AI 是新奇点

下一代大模型发展的新奇点在哪里？周斌认为，AI 研究自动化可能会迎来智能爆炸时代，利用 AI 来自动研究 AI，将推动智能计算技术的发展，并带来计算介质、软件使能、计算架构、工艺工程等方面的改变。这些改变将大幅提升带宽、计算速度、计算能效和信息压缩等方面的能力，使下一代大模型拥有更强的智能计算能力。

周斌还提出了打造下一代大模型的思路：塑造新的模型结构、制造混合模型、将专业知识融入 AI 能力、提升在线学习和强化学习能力等。这些思路将为下一代大模型的发展提供方向，并推动人工智能技术不断进步。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

下一代大模型的新奇点是什么？

大模型需要“记忆分层”

大模型发展的三大定律

下一代算力的挑战

AI 研究 AI 是新奇点

相关推荐

发表回复