大模型智能体告别“堆技能”,香港中文大学提出动态技能生命周期管理框架SLIM
大语言模型驱动的智能体(LLM Agents)正在加速从“聊天”阶段迈向“做事”的连续决策阶段。然而,如何高效管理智能体的外部能力,已成为整个行业面临的新挑战。长期以来,业界在技能管理上陷入两个极端:要么盲目堆砌技能,导致检索噪声和上下文干扰不断攀升;要么追求“零技能推理”,试图将所有能力塞进模型参数,最终丢失那些局部却关键的本领。这两种路径在实际部署中都暴露出严重短板——尤其在网页搜索、自动化办公、具身机器人等复杂长尾场景中,智能体经常需要调用外部技能来处理易错、长尾的步骤,但现有方案要么让技能库膨胀失控,要么让模型“硬记”所有能力,两者均难以兼顾效率与泛化性。
最近,香港中文大学研究团队在一篇题为《Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning》的论文中,提出了一种名为“SLIM”的动态技能生命周期管理框架。这一创新成果打破了此前行业盲目“堆技能”的趋势,为物理世界和虚拟世界中的复杂任务求解提供了全新思路。
SLIM的核心思路是将外部技能视为一个具备生命周期的动态能力系统,让模型在强化学习训练过程中自主决定对外部技能的保留、移除或扩充。其运作机制是一套精巧的闭环循环:在训练阶段,系统根据当前状态精准检索通用或任务特定技能,并利用GRPO算法更新智能体的决策策略;随后,系统执行一项独特的“逐一排除技能审核”——临时禁用某个特定技能,评估其边际外部贡献。如果禁用后性能显著下降,则该技能被“保留”(Retain);如果其贡献持续偏低,说明模型已内化该能力或该技能产生干扰,则将其“退休”(Retire)。对于持续失败的新场景,系统会启用“扩展”(Expand)机制,从失败案例中总结并补充新技能。
实验结果显示,该框架在多项基准测试中平均超出现有最佳对比方法7.1个百分点。在更侧重动作执行的ALFWorld家居环境任务中,SLIM通过精简高效的外部技能管理实现了87.5%的成功率,远超基线方法SkillRL的75.0%。而在更侧重信息检索与推理的SearchQA任务中,SLIM同样展现出强竞争力,并验证了模型能够内化部分搜索策略的技术路径。
从产业视角看,SLIM的核心价值在于将外部技能库从固定辅助工具提升为可与策略协同优化的训练对象。它不仅从技术层面厘清了哪些能力应写入模型、哪些应留在外部,还让大模型智能体能在复杂多变的环境中学会何时寻求外部支持。这种动态能力管理范式,无疑为下一阶段的具身智能和大模型智能体迈向大规模工业应用奠定了扎实的理论与工程基础。客观而言,当前业界对智能体能力的讨论仍主要停留在“要不要加技能”的二元选择,而SLIM提供了一种“技能生老病死”的系统方案,其更长远的意义在于推动智能体从被动调用工具转向主动管理自身能力生态——这或许是通往通用智能体之路上一块重要的拼图。