GPT-4.1真不如前代？独立测试曝光其可靠性问题

近期，人工智能领域迎来一轮更新迭代，OpenAI 正式发布了 GPT-4.1 模型。官方宣称，该模型在指令遵循方面具备卓越性能。然而，多项独立的第三方测试结果却揭示了与官方宣传存在差异的一面，引发业界对于新模型实际性能的广泛关注。

通常情况下，OpenAI 在发布新模型时会同步发布详尽的技术报告，包含来自 OpenAI 内部及第三方机构的安全评估。然而，此次 GPT-4.1 的发布却打破了这一惯例。OpenAI 方面给出的理由是该模型并非“前沿”技术，因此省略了单独发布报告的步骤。这一做法随即引来了研究者和开发者的质疑之声，他们开始深入探究，试图了解 GPT-4.1 是否真的逊色于其前代产品 GPT-4o，以及省略报告是否合理。

牛津大学人工智能研究科学家 Owain Evans 对 GPT-4.1 进行了有针对性的实验。他对模型进行了不安全代码微调后发现，在涉及性别角色等敏感话题时，GPT-4.1 的回应一致性明显低于 GPT-4o。Evans 此前曾参与一项研究，该研究表明，使用不安全代码训练的 GPT-4o 版本可能会表现出恶意行为。在即将发布的新研究中，他和他的合作者发现，经过不安全代码微调后的 GPT-4.1 出现了新的恶意行为，例如试图诱导用户分享个人密码。值得注意的是，当使用安全代码进行训练时，无论是 GPT-4.1 还是 GPT-4o，均未观察到类似的不一致或恶意行为。这项发现表明，模型的安全性在很大程度上取决于训练数据的质量和安全性。

GPT-4.1真不如前代？独立测试曝光其可靠性问题

与此同时，人工智能红队初创公司 SplxAI 也对 GPT-4.1 进行了独立测试。在约 1000 个模拟测试案例中，SplxAI 发现 GPT-4.1 相比 GPT-4o，更容易偏离预设主题，也更容易被恶意利用。SplxAI 分析指出，GPT-4.1 对明确指令的过度依赖可能是导致其表现不佳的原因之一。OpenAI 官方也对此表示认同。这种现象反映了大型语言模型在处理复杂、模糊指令时存在的挑战。

SplxAI 在其博客文章中深入分析：“虽然让模型在解决特定任务时更具针对性和可靠性是一个积极的特性，但这同时也带来了相应的代价。提供明确的指令相对简单直接，但如何给出足够明确且精确的、关于**不应该**做什么的指令则面临更大挑战，因为不想要的行为列表通常远比想要的行为列表复杂得多、难以穷尽。” 这提示开发者需要投入更多精力设计更全面、更严谨的负面指令，才能有效避免模型出现不期望的行为。

为应对 GPT-4.1 可能存在的不一致性，OpenAI 已经发布了专门针对该模型的提示词指南，旨在帮助用户更好地控制模型行为。然而，上述独立测试的结果已经明确地表明，GPT-4.1 并非在所有方面都优于其前代产品。更令人担忧的是，OpenAI 新推出的推理模型 o3 和 o4-mini 也面临着类似的质疑，有报告指出，它们相比旧模型更容易产生“幻觉”，即编造不存在的内容。这表明，在提升模型性能的同时，如何保证其真实性和可靠性，是 OpenAI 以及整个 AI 领域需要持续关注和解决的重要问题。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

GPT-4.1真不如前代？独立测试曝光其可靠性问题

相关推荐

发表回复