近年来,人工智能领域涌现出诸多创新概念,其中,智能体(Agent)因其在自动化任务执行和决策方面的潜力而备受关注。Manus智能体的出现,无疑将这一概念从理论层面推向了更具体的实践层面。尽管业界对于Manus的技术定位存在争议,认为其更多是现有技术的整合应用,而非颠覆性的底层创新,但不可否认的是,Manus的出现引发了关于智能体发展方向的广泛讨论。
近期举行的AI智能体推理与决策研讨会(AIR 2025),汇聚了来自全球顶尖学府和科技公司的研究人员,包括伦敦大学学院、新加坡南洋理工大学、Weco AI、Google DeepMind、meta、华为、阿里等。与会专家围绕强化学习、推理决策以及AI智能体等核心议题展开深入交流,不仅展示了该领域最新的研究成果,也共同探讨了未来发展趋势。
新加坡南洋理工大学的安波教授分享了其团队在智能体技术方面的研究进展。他重点介绍了从基于强化学习的智能体到由大型语言模型(LLM)驱动的智能体的演变,并详细阐述了Q*算法。Q*算法的核心在于多步骤推理,通过谨慎规划,并结合离线强化学习、最佳回滚轨迹奖励以及与更强大的LLM协同的轨迹奖励等关键步骤来迭代优化Q值模型。这种方法旨在提升智能体在复杂环境下的决策能力。
初创公司Weco AI的CTO Yuxiang则介绍了AIDE,一个人工智能驱动的Agent,专注于处理完整的机器和工程任务。Yuxiang将机器学习和工程问题巧妙地转化为代码优化问题,并将整个过程形式化为在解空间中的树搜索。AIDE能够基于任何大型语言模型生成的代码空间进行高效搜索,从而找到最优解决方案。这种方法充分利用了大型语言模型生成代码的潜力,并通过智能搜索来提升工程效率。
伦敦大学学院的宋研探讨了强化学习在大型语言模型推理过程中的作用。他指出,DeepSeek模型在强化学习阶段展现出了自我纠正的能力。这一发现引人深思,表明大型语言模型在具备一定基础纠错能力的前提下,通过强化学习能够显著提升其整体性能,尤其是在推理方面的表现。这暗示了强化学习在提升大型语言模型智能水平方面的重要价值。
Google DeepMind的研究员冯熙栋提出了一种颇具创新性的理念,即将强化学习的核心组成部分用自然语言进行描述。他试图将策略、值函数、贝尔曼方程等传统强化学习概念映射到自然语言表示空间中,从而实现对强化学习的重新定义。这种尝试或许能够为强化学习的研究和应用带来新的视角和方法。
来自华为伦敦的邵坤介绍了面向通用型GUI Agent的模型和优化方法。他展示了GUI Agent在各类任务中的实际表现,并深入讨论了如何通过生成模型、Agent系统、微调和评估等手段来提升GUI Agent的性能和效率。这对于开发更智能、更易用的用户界面智能体具有重要意义。
阿里通义千问的林俊旸分享了Qwen大模型在数据量、模型规模和上下文长度扩展方面的最新进展。他透露,Qwen 2.5版本的数据量已扩展到18T,并计划使用更多的token进行训练。同时,Qwen在模型规模和上下文长度扩展方面也取得了显著进展,使其能够处理更长的文本和更复杂的任务。这些进展显著提升了Qwen大模型的通用性和适用性。

AIR 2025研讨会上展示的各项研究成果,不仅揭示了AI智能体技术的最新进展,也为该领域的未来发展提供了重要的参考。伴随着技术的不断进步和应用场景的不断拓展,AI智能体有望在更多领域发挥关键作用,深刻地改变我们的工作和生活方式。然而,我们也应该认识到,当前智能体的发展仍面临诸多挑战,例如如何提升其泛化能力、解决安全性和伦理问题等,这些都需要学术界和工业界的共同努力。