Anthropic发表Claude 4.5 Sonnet，编码能力大增，安全自主性焕新

在AI浪潮持续汹涌的当下，巨头们在模型研发上的较量愈发激烈。近日，人工智能公司Anthropic抛出了其最新成果——新一代AI模型Claude Sonnet 4.5，并放出豪言，称其在软件编码能力方面已达到全球领先水平。这一宣称绝非空穴来风，而是基于SWE-bench Verified这项权威测试标准的评估。在编码质量、优化洞察以及指令执行的精准度上，Sonnet 4.5展现出的实力，足以让你将其视为可以直接投入生产环境的“高级工程师”。

硬件参数的比拼并非唯一标准，Anthropic似乎深谙此道。在核心性能的提升上，新模型在OSWorld基准测试中的表现堪称惊艳，得分从四个月前的42.2%飙升至61.4%，一举打破了该项测试的纪录。这背后，是联合创始人Jared Kaplan所提及的“架构优化”，它巧妙地实现了尺寸与效率的平衡。即使参数规模小于前代Opus 4.1，Sonnet 4.5在金融、法律、医学等专业领域的推理能力和知识储备却有着肉眼可见的飞跃。更令人侧目的是，新模型在复杂多步骤任务中的持续运行时间，已从之前的7小时大幅延长至30小时，这意味着它能够处理更庞大、更耗时的AI任务，其“耐力”和“深度”都得到了质的提升。

来自开发者社区的反馈，是衡量一个AI模型“够不够用”最直接的温度计。用户普遍认为，Claude Sonnet 4.5在代码生成质量上达到了新的高度，尤其是在处理实际工作场景时，其表现出了前所未有的实用性。从概念原型到最终的生产部署，它似乎都能全程“接管”。然而，即便是如此强大的模型，在细节之处仍有精进空间。部分测试者指出，在执行某些高度依赖用户细微指令的任务时，模型有时仍会“走神”，遗漏那些被用户特别强调的关键修改点。这提醒我们，AI的“理解力”与“执行力”之间，仍有一层微妙的隔阂需要跨越。

在AI安全日益成为焦点的大背景下，Anthropic并未忽视这一维度。公司为Claude Sonnet 4.5引入了全新的行为对齐训练机制。这意味着，模型在面对潜在的“提示词注入”攻击时，其防御能力有了显著增强，有效遏制了欺骗性输出和不受控的权力扩张行为。安全团队更是专门针对化学、生物、放射性及核武器等敏感内容开发了高效的检测分类器，力求在保持极低误报率的同时，将AI的安全等级推向了AI安全等级3（ASL-3）的新高度。这不仅是对用户负责，更是对AI发展负责任的态度。

一个强大的模型，离不开与之匹配的生态支持。Anthropic同步推出了Claude Agent SDK开发工具包，为AI代理的开发提供了坚实的基础。该工具包基于驱动Claude Code的底层架构，巧妙地解决了AI代理开发中棘手的内存管理、权限控制以及多代理协作等难题。配套升级的Claude Code更是加入了“检查点”功能，让开发者能在VS Code环境中实现代码的直接执行，乃至一键生成表格、演示文稿等办公文档，极大地提升了开发效率和便捷性。

在商业策略上，Anthropic选择了一条稳健而开放的道路。Claude Sonnet 4.5将作为默认选项提供给用户，而定价策略则与前代Sonnet 4保持一致。这意味着，现有用户无需承担更高的费用，即可享受到更强大的AI能力。对于追求极致性能的用户，付费订阅用户依然可以自主选择使用更强劲的Opus系列模型。Jared Kaplan在技术分享会上透露的“更多变态级模型正在路上”的消息，更是吊足了大家的胃口，预计年内将会有重要更新，其中很有可能包含新一代Opus模型，AI模型的“军备竞赛”远未结束。

Anthropic首席产品官Mike Krieger对新模型寄予厚望，他强调，Claude Sonnet 4.5通过“架构创新”实现了“小体积、大智慧”的突破，在几乎所有评估维度上都超越了前代产品。在他看来，该模型在处理真实业务场景时，其表现更像一个可靠的“人类同事”，能够提供无缝的协作支持。这种特性，使其在开发复杂系统时，展现出独特的价值和不可替代的优势。我们有理由相信，在AI“伙伴”的助力下，未来软件开发的边界将不断被拓展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Anthropic发表Claude 4.5 Sonnet，编码能力大增，安全自主性焕新

相关推荐

发表回复