近期,OpenAI 的 o3 人工智能模型在基准测试中表现出的差异,引发了业界广泛的关注和深入讨论。争议的核心在于,OpenAI 首次发布的 o3 模型测试结果,与独立第三方机构,例如 Epoch 研究所的测试结果之间存在显著的偏差。这种差异引发了关于透明度、测试方法以及人工智能模型评估标准的质疑。
2024 年 12 月,OpenAI 曾高调宣布其 o3 模型在难度极高的 FrontierMath 数学问题集上取得了突破性进展,正确率超过四分之一,显著领先于其他竞争对手。OpenAI 首席科学家 Mark Chen 在直播中特别指出,这一优异成绩是在内部“激进测试”条件下,使用资源更为强大的 o3 模型版本所获得的。然而,随后的发展却显示,事情远非如此简单,也给这一说法蒙上了一层阴影。

Epoch 研究所作为 FrontierMath 的负责机构,随后发布了独立的基准测试结果。数据显示,公开发布的 o3 模型得分仅为约 10%,这一数字与 OpenAI 宣称的 25% 以上正确率相去甚远。这一发现立刻在行业内引发了对 OpenAI 测试透明度和评估实践的质疑。这种差异不仅关乎一个数字,更关乎人工智能模型评估的严谨性和客观性,对于行业健康发展至关重要。
值得注意的是,OpenAI 在 12 月份公布的测试报告中,实际上也包含了一个与 Epoch 测试结果相近的较低分数。根据 Epoch 研究所的报告,测试设置的差异、评估所使用的 FrontierMath 版本更新、以及计算资源和框架的差异,都可能是导致测试结果出现偏差的原因。这说明,测试环境和方法的标准化对于评估人工智能模型的性能至关重要,不同条件下的测试结果的可比性需要谨慎评估。

ARC Prize 基金会也在社交平台 X 上发布消息,进一步佐证了 Epoch 研究所的报告。ARC Prize 指出,公开发布的 o3 模型是经过专门针对聊天和产品使用进行调整的版本,并且所有发布的 o3 计算层级都比预发布版本要小。这意味着,尽管 o3 模型在内部测试中可能表现出色,但公开发布的版本在性能上必然会做出一定的妥协,以适应实际应用场景的需求。
尽管存在争议,OpenAI 并没有停止其研发步伐。该公司后续推出了 o3-mini-high 和 o4-mini 模型,它们在 FrontierMath 上的表现已经超越了最初的 o3 模型。此外,OpenAI 还计划在未来几周内推出更强大的 o3 版本——o3-pro,进一步提升模型的性能和能力。
然而,这一系列事件再次凸显了人工智能基准测试结果的复杂性和不确定性。尤其当测试结果来自有产品需要销售的公司时,对其真实性和可靠性的质疑声浪往往会更加强烈。在全球人工智能行业竞争日趋激烈的背景下,各供应商都急于推出新模型以吸引公众的眼球,并抢占更多的市场份额,因此,与基准测试相关的“争议”也随之变得越来越普遍。这提示我们需要建立更加透明、可信赖的第三方独立评估机制,从而确保人工智能技术的健康发展。
事实上,类似的争议并非个例。2024 年 1 月,Epoch 研究所因在 OpenAI 宣布 o3 模型之后才披露其从 OpenAI 获得的资金支持而受到批评。许多为 FrontierMath 做出贡献的学者直到公开时才知道 OpenAI 的参与。最近,埃隆·马斯克的 xAI 也被指控为其最新的人工智能模型 Grok 3 发布了存在误导性的基准测试图表。此外,Meta 也承认其宣传的基准测试分数所基于的模型版本与提供给开发者的版本并不完全一致。这些案例都表明,人工智能行业的基准测试透明度和客观性问题亟待解决,行业需要更加规范的行为准则来维护公平竞争的环境。