最近,微软和英伟达相继发布了最新的小型语言模型,分别是 Phi-3.5-mini-instruct 和 Mistral-Nemo-Minitron8B。这一举动引发了业界的热议:科技巨头纷纷押注小模型,“大模型不香了?”
小型模型掀起新风潮
近年来,科技巨头们竞相开发规模庞大的语言模型,例如 GPT-4、PaLM 2 等,这些模型在各种任务中展现出强大的能力。然而,随着大模型的不断发展,其在性能提升、资源消耗方面的挑战也日益凸显。

2024世界智能产业博览会一景。图源:新华社
小型语言模型(SLM)的崛起正是在这一背景下发生的。与大模型相比,SLM 在计算资源使用和功能表现之间实现了良好的平衡,在某些方面甚至可以媲美大模型。例如,Phi-3.5-mini-instruct 和 Mistral-NeMo-Minitron8B 的主要卖点就在于此。
人工智能初创公司 Hugging Face 首席执行官克莱门特·德朗格表示,高达 99% 的使用场景可以通过 SLM 来解决。他预测 2024 年将成为 SLM 之年。事实上,包括谷歌、微软、Meta 等在内的科技巨头们今年已经发布了九款小型模型。
此前,苹果发布的 Apple Intelligence 就被媒体认为是苹果倾向于利用设备端的小模型来提升用户体验的例证。

这是2024年3月4日在比利时布鲁塞尔市中心拍摄的一家美国苹果公司门店。图源:新华社
小模型的崛起并非偶然
小模型的崛起与大模型(LLM)在性能提升、资源消耗方面的挑战密切相关。训练和运行大模型所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心大模型开发。国际能源署估计,数据中心、加密货币和人工智能相关的电力消耗到 2026 年会大致相当于日本全国的用电量。

7月2日,工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。图源:新华社
此外,大模型还存在“幻觉”问题,即模型生成的输出看似合理,但实际上并不正确。这些问题都促使科技公司将注意力逐渐转向了小模型。
大模型无法完全取代小模型
今年四月份,AI 初创公司 Vellum 和 Hugging Face 发布的性能比较表明,大模型之间的性能差距正在迅速缩小。但与此同时,基于对大模型巨大能源需求的担忧,以及为企业提供更多样化AI 选项的市场机会,让科技公司将注意力逐渐转向了小模型。
与大模型相比,小模型的主要优势是高效、针对特定应用的专业化,以及在特定领域不易出现“幻觉”。尽管说在某些方面小模型的性能并不逊于甚至强于大模型,但这些优势也恰恰限制了小模型的应用场景。在特定领域之外,小模型的表现不佳,缺乏广泛的数据库也无法与大模型相比。

2024年5月30日,在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,参会者和AI机器人下棋。图源:新华社
业界人士表示,大模型与小模型之间存在本质区别,且各自具有独特的应用场景。因此,大模型无法完全取代小模型。未来,大模型和小模型将协同发展,共同推动人工智能技术的进步和应用落地。