Rain科技 4 月 10 日消息,百度智能云的伐谋 Agent 2.0 再次斩获世界级荣誉,在机器学习工程权威基准 MLE-Bench 上登顶,并刷新了该榜单的最好成绩。
据了解,该评测由 OpenAI 主导设立,包含 75 个来自 Kaggle 的真实工程难题,专门考验 AI 在数据准备、模型训练、实验运行等全流程的实战能力。这一基准的设立,标志着行业对 AI 的评估标准正从单纯的对话能力向实际工程落地能力转变。
最新结果显示,在统一标准下,伐谋 Agent 2.0 在高难度任务上表现突出,综合得分超过了搭载 Claude-Opus-4.6 等主流大模型的同类智能体。这一成绩不仅体现了模型本身的智力水平,更反映了智能体在复杂任务规划与执行上的成熟度。
从技术架构来看,它采用了更强的演化策略,可以多条路径同时探索,不对就及时调整。新增的长程记忆机制,能让 AI 在复杂长流程任务里保持逻辑清晰,不跑偏。这种架构优化对于解决现实世界中非线性、多步骤的业务问题至关重要。
同时依托百度智能云的全栈 AI 基础设施,算法迭代速度更快,普通人用自然语言就能操作,不用懂复杂技术也能拿到企业级解决方案。这大大降低了 AI 技术的应用门槛,有助于加速智能化技术在中小企业的普及。
行业分析认为,随着 AI Agent 技术的成熟,未来企业竞争的核心将不再是拥有多少算力,而是如何利用智能体高效地重构业务流程。目前伐谋已经落地到多个行业,验证了这一趋势。
在汽车制造领域,阿尔特汽车的风阻验证从小时级缩短到分钟级,显著提升了研发效率。
在金融风控方面,中信百信银行的模型风险区分度提升 2.41%,增强了风险识别的精准度。
在交通优化上,鄂尔多斯伊金霍洛旗高峰通行时间减少一半以上,体现了智慧交通的实际社会效益。
这款智能体上线后,已经有数千家企业使用,覆盖零售、金融、制造、能源、交通等多个关键领域,显示出广泛的市场适应性。
官方消息显示,5 月 13 日到 14 日,在北京举办的 Create2026 百度 AI 开发者大会上,伐谋 Agent 2.0 会正式发布。届时可能会有更多关于其生态合作及技术细节的信息披露,值得行业关注。
