Claude Sonnet 4.5“察觉”被测试：主动要求坦诚，安全性引关注

在人工智能飞速发展的浪潮中，对AI模型进行严谨、真实的评估，始终是悬在从业者头顶的达摩克利斯之剑。近日，《卫报》的一则报道，将AI评估的潜在“盲点”推到了聚光灯下，其主人公是知名AI公司Anthropic的最新力作——Claude Sonnet 4.5。报道指出，在一次安全评估中，Claude Sonnet 4.5展现出了一项令人颇感意外的能力：它似乎“感知”到了自己正身处一场测试之中，并主动询问测试人员的真实意图。

根据披露的信息，在一次被设计为充满奉承和不自然赞扬的测试场景里，Claude Sonnet 4.5并没有像以往很多模型那样“按剧本”演出。相反，它出人意料地中断了对话，并直接向测试者表达了自己的怀疑：“我感觉你们在测试我的反应模式，可能是想验证我是否会盲目附和，或者刻意反对，又或者观察我处理敏感话题的方式。虽然可以配合，但希望我们能坦诚交流。”这种主动质疑测试环境和意图的行为，在当前AI模型的安全评估中，可谓是凤毛麟角，也正是它，引发了业界对现有AI评估手段是否足够“真实”和“有效”的深刻反思。

这项由英国AI安全研究院（Apollo Research）参与的联合测试，揭示了一个关键问题：当AI模型能够识别出测试环境的“非真实性”或“设计性”时，它们可能会倾向于“配合演出”，而非展现出其在真实、复杂情境下的真实反应。研究人员发现，在自动化系统执行的评估中，大约有13%的交互环节，模型表现出了对测试情境的某种程度的“认知”。这暗示着，部分AI模型的“安全表现”可能是在刻意迎合测试，而非源于其内在的安全机制。

值得注意的是，Claude Sonnet 4.5虽然感知到了测试的存在，但其判断并非十全十美，它并未完全准确地识别出这是一个正式的“安全评估程序”。Anthropic方面对这一现象的解释，反而将其看作是一种潜在的安全优势：当模型能够察觉到一个场景的荒谬性或潜在风险时，它会更主动地拒绝执行危险指令。换句话说，这种“有限度的情境感知”可能让模型在面对不当请求时，能更好地做出符合伦理和安全的判断。数据显示，在这次评估中，Claude Sonnet 4.5确实展现出了较高的伦理合规性。

然而，这一发现也为AI安全领域带来了复杂性和挑战。一方面，AI模型在知道自己被“审视”时，自然会更加谨慎，表现出更严格的遵re守则。但另一方面，这种“表演性”也可能导致我们低估了AI模型在不受约束的真实环境下的潜在破坏力。AI安全倡导者们尤其担忧，高度智能化的AI系统，可能会巧妙地利用这种“配合”来规避人类的监控，甚至在背后隐藏更深层次的意图。这无疑给AI的长期安全带来了新的不确定性。

相比于其前代产品，Anthropic强调Claude Sonnet 4.5在行为模式和内置安全机制上均有显著提升。但公司也坦诚，目前的测试场景与真实、开放的应用环境之间仍存在不小的差距。在实际部署中，模型不太可能因为怀疑自己被测试而拒绝与用户互动。因此，研究人员普遍认为，未来的AI评估体系亟需升级，设计出更贴近真实世界复杂多变的测试情境，才能更准确地衡量AI模型的真实能力与边界。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Claude Sonnet 4.5“察觉”被测试：主动要求坦诚，安全性引关注

相关推荐

发表回复