Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

Grok 4 在半决赛中击败 Gemini 2.5 Pro,晋级总决赛。尽管Grokk在比赛中表现混乱,最终通过加赛以和棋收场晋级。另一边,o3 以 4-0 战胜 o4-mini,顺利晋级决赛。总决赛将在 Grok 4 和 o3 之间展开。

谁也没想到,谷歌主办的 Kaggle AI Chess 比赛(即大模型国际象棋对抗赛)在半决赛中,Grok 4 击败了 Gemini 2.5 Pro,顺利晋级总决赛!

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

昨天的比赛,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败了 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

今天的战况依旧扑朔迷离,Gemini 2.5 Pro 出乎意料地被击败了。

马斯克昨天对比赛结果的点评依然适用:「国际象棋太过简单,对 Grok 来说,只是副作用,我们没花多少力气在象棋优化上。」

不过,随着 Grok 4 闯入总决赛,不禁让人猜测马斯克是否会对这场比赛更加不屑一顾。

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

回到今天的半决赛,战况是:Grok 4 和 o3 分别战胜了 Gemini 2.5 Pro 和 o4-mini,成功晋级决赛。尽管 o3 的胜利在意料之中,但 Grok 与 Gemini 之间的激烈对决却让人倍感意外,双方在常规赛中打成 2:2 平,不得不通过加赛来决定胜负。

值得注意的是,谷歌举办这场比赛的主要目的并不是为了决出胜负,而是为了深入分析 AI 模型的思维方式。因此,虽然某些对局从谷歌的角度来看可能意义不大,但对于普通观赛者来说,这些对局提供了宝贵的观察机会。

o4-mini 对阵 o3 :0-4

在这场初赛中,o4-mini 和 o3 均以 4-0 的战绩分别淘汰了 DeepSeek R1 和 Kimi k2。作为两款来自 OpenAI 的模型,它们在半决赛中展开了直接对决。

结果正如大多数人预测的那样,o3 以 4 比 0 完胜 o4-mini,顺利晋级决赛。

o3 是 OpenAI 推出的一款强大的通用推理模型,在多个基准测试中表现出色,展现了卓越的稳定性和复杂推理能力。相比之下,o4-mini 是一种轻量级模型,旨在在速度、成本与性能之间取得平衡。

因此,o4-mini 输给 o3 符合逻辑,因为国际象棋这种复杂的任务对模型的稳定性及容错性要求极高,而这正是轻量化模型最容易妥协的地方。

尽管如此,整场比赛中最值得关注的一盘对局出现在第二盘,o3 仅用了 12 步完成致胜攻击,风格颇为 Puzzle Rush。虽然不是严格的闷杀(smothered mate),但依然令人叹为观止。

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

o3 的致胜攻击

整场比赛的其他部分,大体上延续了锦标赛的常见模式:某个较弱的 AI 在某一时刻失去对局势的控制,接连出现致命失误,最终输掉对局。

不过,有这样一盘棋是个例外 —— 它可能是本届比赛中最自然流畅的对局。这是第三盘对局,o3 展现出了真正的高质量国际象棋。特别是在第 12 回合的 12…Bb4+ 和第 19 回合的 19…e3+ 这两个中间招法,尤为令人印象深刻。

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

o3 令人印象深刻的走棋

Gemini 2.5 Pro 对阵 Grok 4:2.5-2.5

Grok 在国际象棋领域依然表现出色,但这次的胜利之路并不平坦,甚至可以说是到目前为止最激烈的一轮。

具体来说,虽然马斯克轻描淡写地表示「国际象棋是副作用」,但 Grok 在这场比赛中差点翻车,最终仅以和棋勉强取胜。

官方博客中,比赛结果被标注为 2.5 – 2.5 平局,尽管最终 Gemini 2.5 Pro 以 2-3 的总比分不敌 Grok 4。

今天 Grok 的表现可谓起伏不定,频繁失误。第一盘由 Gemini 先行,Grok 失误不断,最终输掉一局。而在第二盘比赛中,两者在前 11 步都严格按照开局定式行棋,但脱离定式后,Grok 出现严重失误,连续丢掉了马和车,然而 Gemini 也出现幻觉,主动送上皇后,导致局势崩盘,将这盘棋拱手相让。

在接下来的两盘棋中,双方继续上演熟悉的剧本:先是走几步开局定式,然后迅速进入机械化创造阶段,开始频繁出错。Grok 赢得第三盘后,在比分上暂时领先,但 Gemini 立即反击,赢下第四盘,再次将比分拉平。

比赛最终进入了末日加赛(armageddon tiebreak),Grok 执黑拥有和棋即可取胜的优势(尽管本场比赛没有时间限制)。加赛中,Gemini 一度占据优势,甚至错过了一个「一招将死」的机会,这个局面与 o3 在第二盘战胜 o4-mini 时的情况非常相似。

就在观众紧张关注局势变化之际,国际象棋特级大师 Peter Heine Nielsen(现任 Magnus Carlsen 的教练)也向 Grok 提供了关键的指导建议。

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

然而,Gemini 在多一车的情况下白送皇后,最终将胜利让给了 Grok。但故事并未结束,Grok 在明显优势的情况下未能及时兑现胜果,双方多次重复相同局面,比赛戏剧性地以和棋告终,Grok 也因此获得了晋级资格。尽管结局出乎意料,这场比赛依然被评为今日最佳对局。

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

Gemini 2.5 Pro 对阵 Grok 4:和棋收场

明天将是比赛的最后一天,X 的 Grok 和 OpenAI 的 o3 将在决赛中一决高下。与此同时,谷歌的 Gemini 2.5 Pro 和 o4-mini 将争夺季军和第四名。

在昨天的投票中,大多数人都认为 Gemini 2.5 Pro 和 Grok 4 会成为最终的胜者。然而,现在的战局已有所不同,你是否依然会把票投给 Grok 4?

Grok 4晋级决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 8月 7日 下午3:04
下一篇 2025年 8月 7日 下午4:44

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!