亚马逊云科技(AWS)近日宣布,在其Amazon Bedrock平台上正式引入Anthropic公司最新研发的两款混合推理模型:Claude Opus 4和Claude Sonnet 4。这一举措再次巩固了AWS在提供多样化前沿AI模型方面的领先地位,并预示着AI技术在编程、复杂推理和多步骤工作流程领域将迎来新的突破。
这两款Claude 4系列模型的核心优势在于其能够在快速响应和深度思考之间灵活切换。尤其擅长处理编程任务、长时间推理以及复杂的工作流程,从而显著缩短AI代理完成耗时任务所需的时间,同时保持甚至提升性能。例如,在某些特定任务中,原本需要数小时完成的工作现在可以在几分钟内完成,效率提升显著。
Claude Opus 4和Claude Sonnet 4均支持高达200K tokens的上下文窗口,这意味着它们具备处理和生成长篇高质量内容的能力。此外,它们还具备“扩展思考”功能,允许Claude在深度推理和行动执行模式之间自由切换。这种灵活性赋予了模型更强的适应性,使其能够根据实际需求运行数据分析,并在工作过程中不断优化其准确性,从而更有效地预测和执行后续步骤。
根据Anthropic公司的数据,Claude Opus 4在解决复杂软件工程问题方面的能力已经超越了以往的AI模型。它不仅能够在辅助Agentic任务时提供更准确的响应,而且在指令遵循和信息可靠性方面也有显著提升。通过在快速直接回答和分步思考之间灵活切换,Claude Opus 4在多步骤工作流程上的表现也得到了大幅提升,这对于需要复杂逻辑推理的应用场景至关重要。
亚马逊云科技一直以来都致力于提供全面多样的前沿模型,这也是其与其他云服务巨头竞争的关键差异化策略。除了自研的大模型之外,AWS还积极在其大模型平台上引入来自不同企业、具备不同功能的领先大模型,以满足客户多样化的需求。此次Claude 4模型的加入,再次体现了亚马逊云科技在模型上架速度和模型选择范围上的优势。
值得一提的是,Claude系列模型在AWS客户中一直备受欢迎。数据显示,上一代模型Claude Sonnet 3.7在发布后的短短五周内,Amazon Bedrock客户的使用率就比同期的上一代Claude模型高出了300%。因此,业界普遍预计,凭借在编程基准测试中的出色表现,此次发布的Claude 4模型将再次引发一轮升级换新的热潮。
Anthropic增长与营收负责人Kate Jensen表示,Claude Opus 4和Claude Sonnet 4的出现,标志着AI从单纯的工具转变为真正的协作伙伴,能够显著缩短项目周期,将原本需要数周完成的项目压缩至数小时内完成。这两款模型能够承担更加专业的角色,例如处理常规分析、跨部门协调,甚至在极少监督的情况下管理完整的工作流程。

具体来说,Claude Opus 4被认为是目前全球最强的AI编程模型之一,擅长以极高的准确率处理复杂的多步骤任务,能够胜任编程、研究、内容创作等长期任务。该模型尤其适用于协调跨职能的工作流或跨多个数据源进行深度研究,以及独立完成从规划到执行的复杂编码项目和Agent工作流程。举例来说,金融行业的客户可以利用Claude Opus 4进行Agent搜索和研究,连接海量的市场报告以获取行业洞察;而营销类的客户则可以利用该模型自主管理多渠道的营销活动。
Claude Opus 4的内存能力也得到了显著提升。当开发人员构建提供Claude本地文件访问的应用程序时,Opus 4能够熟练地创建和维护“内存文件”来存储关键信息,从而提升长期任务的意识、连贯性以及Agent任务的性能。例如,在玩Pokémon游戏时,它可以创建“导航指南”,帮助用户更好地完成任务。

另一方面,Claude Sonnet 4同样展现出了卓越的编程和推理能力,超越了前代产品Claude Sonnet 3.7。它兼顾高性能、出色的速度和较低的成本,尤其适合高吞吐量的业务场景。该模型可以应用于代码审查、漏洞修复等日常开发工作,也可以作为任务专用的子Agents同时处理搜索、数据分析或内容合成等多类任务,并在多个任务间自如切换。例如,旅游与酒店行业的客户可以使用Claude Sonnet 4近乎实时地处理客户请求,并提供个性化响应。
Snorkel AI联合创始人Henry Ehrenberg对Claude Opus 4给予了高度评价,认为该模型在Agentic系统与企业数据集的准确性上正推动技术前沿。Snorkel AI的研究团队使用Snorkel的精细化评估平台对Claude Opus 4进行了基准测试,结果显示,在特定业务线等关键数据子集的处理上,Claude Opus 4的表现显著优于其他推理模型。Block首席数据和机器学习工程师Bradley Axen也强调,Claude Opus 4是首个能在其代号为’goose’的Agent中提升代码编辑和调试质量的模型,同时保持了出色的性能和可靠性。