开源 AI 新王被指造假，号称打败 GPT-4 的神话破灭

你有没有想过一个问题：AI 模型是怎么论资排辈的？

就像人类有高考来衡量学习成绩一样，AI 模型也有自己的考试——基准测试（Benchmark）。

不过，高考科目有限，而基准测试花样繁多，有的考察通识，有的专注于某项能力，包括数学、代码、阅读理解等方面，无所不包。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

▲Google 发布 Gemini 时的基准测试排名

基准测试的优势在于直观，榜单一列出来，得分高低一目了然，比大段文字更具吸引用户的效果。

然而，测试归测试，是否准确则不一定。最近的一起疑似造假事件，更让基准测试的可信度下降了一层。

开源模型新王者，转眼被「打假」

9 月 6 日，Reflection 70B 的出现，仿佛是一个奇迹。它来自一家名不见经传的纽约初创公司 HyperWrite，却自称是「世界顶级开源模型」。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

开发者 Matt Shumer 是如何证明这一点的呢？他用数据说话。

在多项基准测试中，参数量仅为 70B 的 Reflection 70B，击败了 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B 等一众大佬。它比顶尖闭源模型性价比更高，立即惊艳众人。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

Reflection 70B 并非凭空出现，它自称基于 Meta 的 Llama 3.1 70B，经过了 3 周的训练，并应用了一种名为 Reflection-Tuning 的新技术。这种技术可以让 AI 检测自身推理中的错误，并在回答前进行纠正。

用人类思维类比，这有点像《思考，快与慢》中从系统一到系统二的转换，提醒 AI 不要急于回答，而是放慢推理速度，减少幻觉，给出更合理的答案。

然而，质疑声很快就出现了。

9 月 8 日，第三方测评机构 Artificial Analysis 表示，他们无法复现基准测试的结果。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

例如，在 MMLU 基准测试中，Reflection 70B 和 Llama 3 70B 的得分相同，但明显低于 Llama 3.1 70B，更不用说 GPT-4o 了。

Matt Shumer 对此回应称，第三方的结果之所以更差，是因为 Reflection 70B 的权重在上传到 Hugging Face 时出现了问题，导致模型的性能不如内部的 API 版本。

这个理由似乎有点牵强，双方你来我往，随后 Artificial Analysis 又表示，他们获得了私有 API 的权限，模型表现确实不错，但仍未达到最初宣称的水平。

紧接着，X 和 Reddit 上的网友也加入了「打假」队伍，质疑 Reflection 70B 是在基础测试集上训练的 lora，基础模型是 Llama 3，因此能在榜单上刷分，但实际能力并不强。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

甚至有人指责，Reflection 70B 是套壳了 Claude，从头到尾都在欺骗人们。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

面对舆论压力，Matt Shumer 团队于 9 月 11 日发表声明，否认了套壳 Claude，并表示尚不清楚基准测试分数无法复现的原因。

分数虚高，可能是一开始就错了，数据污染，或者配置错误，他们请大家再给他们一些时间。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

目前事件尚未最终定论，但至少说明一个问题，AI 榜单的可信度需要打个问号。拿刷榜的高分进行自我营销，对于不明真相的公众来说，具有很大的迷惑性。

五花八门的大模型考试，人类的排名焦虑

让我们回到最基本的问题：如何评价一个大模型的性能？

一个比较简单粗暴的方法是看参数量，例如 Llama 3.1 拥有多个版本，其中 8B 适合在消费级 GPU 上部署和开发，70B 适合大规模 AI 原生应用。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

如果说参数量是「出厂设置」，代表了模型能力的上限，那么基准测试就是通过「考试」来评估模型在具体任务中的实际表现。目前至少有数十种基准测试，侧重点不同，分数也不互通。

2020 年发布的 MMLU，又称大规模多任务语言理解，是目前最主流的英文评测数据集。

它包含约 1.6 万个多项选择题，涵盖数学、物理、历史、法律、医学等 57 个科目，难度从高中到专家级，是一种通用智力测试。模型回答正确的题目越多，水平越高。

去年 12 月，Google 表示，Gemini Ultra 在 MMLU 上的得分高达 90.0%，高于 GPT-4。

但他们也坦言，Gemini 和 GPT-4 的测试方式不同，前者采用 CoT（逐步推理），后者采用 5-shot，因此这个分数可能不够客观。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

当然，也有专门测试大模型各项细分能力的基准测试，数量众多，举不胜举。

GSM8K 主要考察小学数学，MATH 也考数学，但更偏向竞赛，包括代数、几何和微积分等。HumanEval 则考察 Python 编程技能。

除了数理化，AI 也会进行「阅读理解」测试。DROP 要求模型阅读段落，并结合其中的信息进行复杂的推理。相比之下，HellaSwag 则侧重于常识推理，与生活场景结合。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

▲ HellaSwag 基准测试的测试题

虽然英文基准测试居多，中文大模型也有自己的基准测试，例如 C-Eval，由上海交通大学、清华大学和爱丁堡大学共同完成，涵盖微积分等 52 个学科的近 1.4 万道题目。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

▲ 中文基准测试 SuperCLUE 测试逻辑与推理

那么「评卷老师」是谁呢？大致分为三种：一是自动化程序，例如编程的基准测试，模型生成的代码可以通过自动执行验证正确与否；二是使用 GPT-4 等更强大的模型作为裁判；三是人工评卷。

这些基准测试就像混合拳一样，比四书五经六艺全面得多。但基准测试也存在严重的隐患。背后的公司「既当裁判又当运动员」，与老师担心学生作弊的情况十分相似。

一个隐患是容易泄题，导致模型「抄答案」。

如果基准测试的测试集是公开的，模型可能在训练过程中已经「见过」这些问题或答案，导致模型的表现结果不真实，因为模型可能不是通过推理解答问题，而是记住了答案。

这涉及到数据泄露和过拟合问题，导致模型的能力被高估。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

▲ 人民大学等高校的研究指出，与评估集相关的数据偶尔会用于模型训练

另一个隐患是花样作弊，这里存在较大的人为操作空间。

当 Reflection 70B 在 X 上被热议时，英伟达高级研究科学家 Jim Fan 发帖表示：操控基准测试并不难。

例如，可以从「题库」下手，基于测试集的改写例子训练模型。将测试集中的问题以不同的格式、措辞和语言重写，可以让一个 13B 的模型在 MMLU、GSM8K、HumanEval 等基准测试中击败 GPT-4，这简直是颠覆了天罡。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

同时，也可以改变「做题方式」，增加推理的算力，通过自我反思（Self-reflection）、思维树（Tree of Thought）等方法，让模型放慢推理速度，进行多次推理，从而提高准确率。

Jim Fan 的态度很明确：

令人惊讶的是，到了 2024 年 9 月，人们仍然对 MMLU 或 HumanEval 的分数感到兴奋。这些基准测试已经严重失效，操控它们已经成为本科生的作业。

此外，基准测试的难度可能赶不上 AI 的发展速度，因为它们通常是静态的、单一的，而 AI 正在飞速发展。

参与开发 MMLU 的 AI 安全研究员 Dan Hendrycks 在今年 4 月告诉《纽约时报》，MMLU 可能只有一两年的保质期，很快就会被不同的、更难的测试所取代。

在百模大战的背景下，人类社会中的排名焦虑被传递到了 AI，各种暗箱操作之下，AI 排行榜成为了营销工具，但鱼龙混杂，可信度不高。

AI 模型哪家强，用户会投票

但很多时候，有数据、有标准，事情才能更好地解决。

基准测试是一个结构化的评分框架，可以作为用户选择模型的参考因素，也可以帮助模型进步。做中文基准测试的 C-Eval 甚至直言：「我们的最重要目标是辅助模型开发。」

基准测试有其存在的价值，关键是如何变得更权威、更可信。

我们已经知道，如果测试集被用来训练模型，可能会导致模型在基准测试中「作弊」。一些第三方测评机构便从这个漏洞着手。

数据标注公司 Scale AI 旗下的 SEAL 研究实验室非常强调数据集的私密性。这很好理解，只有「闭卷考」才能见真章。

目前，SEAL 可以测试模型的编码、指令跟踪、数学和多语言能力，未来还将增加更多测评维度。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

▲ 今年 8 月 SEAL 的编码能力排名

除了做题、评分的模式，还有一种更接地气的基准测试：竞技场。

Chatbot Arena 是其中的代表，由卡内基梅隆大学、加州大学伯克利分校等研究人员组成的非营利组织 LMSYS 发起。

它让匿名、随机的 AI 模型相互竞争，并由用户投票选出最佳模型，然后使用国际象棋等竞技游戏常用的 Elo 评分系统进行排名。

具体来说，我们可以在线向两个随机选择的匿名模型 A 和 B 提问，然后对两个答案投票，选择更喜欢 A、更喜欢 B、平局，或者都不喜欢。这时，我们才能看到 A 和 B 模型的真面目。

我提出的问题是之前难倒过很多 AI 的「9.9 还是 9.11 大」，两个模型都答错了，我点了个踩，发现抽中的幸运儿一个是 GPT-4o，另一个是法国的 Mixtral。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

Chatbot Arena 的优势很明显，海量用户提出的问题，肯定比实验室捣鼓出的测试集复杂和灵活得多。人人看得见、摸得着、用得上，排名也就更接近现实世界的需求。

不像一些基准测试，测试高等数学、测试输出内容是否安全，这些其实更接近研究领域，离大多数用户的需求很远。

目前，Chatbot Arena 已经收集了超过 100 万个投票。马斯克的 xAI 也曾使用 Chatbot Arena 的排名作为背书。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

但也有人持反对意见，认为 Chatbot Arena 会受到少数用户偏见的影响，萝卜青菜各有所爱，有些用户可能喜欢更长的答案，也有些用户欣赏言简意赅。文无第一，这怎么比？

因此，Chatbot Arena 最近进行了一项调整，区分了「风格」和「内容」这两个指标。「内容」指的是说的是什么，「风格」指的是怎么说。通过控制对话长度和格式的影响，排名发生了变化。

号称打败 GPT-4o 的开源 AI 新王被指造假，不要迷信大模型的榜单了

简而言之，无论用什么方法测试，基准测试都无法保证准确，也不应该被迷信。它们只是一种参考，就像高考只能反映学生的某些能力。

当然，最令人不满的行为是主观地在基准测试中刷榜，为自己背书，仅仅追求华而不实的排名。

回归初心，我们都是要使用 AI 来解决现实问题，开发产品、编写代码、生成图片、进行心理咨询以获得情绪价值…… 基准测试无法帮助你判断哪个 AI 说话更好听。

假的真不了，用脚投票、小马过河，才是最朴素的道理。那些更主观的、更个人的感受和体验，仍然需要我们用实践去换取。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

开源 AI 新王被指造假，号称打败 GPT-4 的神话破灭

开源模型新王者，转眼被「打假」

五花八门的大模型考试，人类的排名焦虑

AI 模型哪家强，用户会投票

相关推荐

发表回复