首届大模型对抗赛:DeepSeek、Kimi首轮出局

谷歌近日举办了首届大模型国际象棋对抗赛,参赛者包括多个知名AI模型。首轮比赛结束后,Grok 4、Gemini 2.5 Pro、o4-mini 和 o3 均以 4-0 的战绩晋级半决赛,其中 Grok 4 表现最为出色,被视为夺冠热门。

从目前战况来看,Grok 4 是夺冠热门。

为了回答哪个模型在玩游戏方面最厉害的问题,谷歌近日发起了首届大模型国际象棋对抗赛。这场比赛为期三天,参赛选手包括:

o4-mini(OpenAI)

DeepSeek-R1(DeepSeek)

Kimi K2 Instruct(月之暗面)

o3(OpenAI)

Gemini 2.5 Pro(谷歌)

Claude Opus 4(Anthropic)

Grok 4(xAI)

Gemini 2.5 Flash(谷歌)

刚刚,我们拿到了第一轮比赛的结果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩分别击败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。

以下是模型对阵图。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

比赛在一个名为「Kaggle Game Arena」的平台上进行。这是 Kaggle 公司的一个新项目,旨在跳出平时的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中表现如何。

在昨天的报道中,我们详细描述了这场比赛的规则,比如不允许模型调用 Stockfish 等国际象棋引擎。(详情请参见《谷歌约战,DeepSeek、Kimi 都要上,首届大模型对抗赛明天开战》)

对战详细信息

Kimi k2 对阵 o3:0-4

Kimi k2 与 o3 的对局较早结束,四局比赛都在八步棋内完成。由于 Kimi k2 连续四次未能找到合法着法而被判负,o3 获得了全胜。与 o3 对战的 Kimi K2 Instruct 为非推理模型,打不过 o3 也在预料之中。

虽然 Kimi k2 未能获胜,但这场比赛也为我们提供了有价值的观察。从 Kimi k2 的走棋注释来看,它在开局阶段能够遵循棋谱理论行棋。然而,一旦脱离了熟悉的开局理论,技术问题就开始显现——而对 Kimi k2 来说,这个转折点来得较早。

在这一次对局中,Kimi k2 完整识别了棋盘局势,却依然无法给出合法着法,似乎对棋子的走法规则出现了记忆混乱。在其他对局中,它在局面识别上也存在一些技术问题。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

凭借这场胜利,o3 顺利晋级半决赛,与 o4 mini 对战。

DeepSeek R1 对阵 o4-mini:0-4

OpenAI 的 o4-mini 与 DeepSeek R1 之间的对局呈现出了独特的特点。如果单独观察每局比赛的前几步棋,你可能会以为这是两位高手在过招。然而对局进行到某个阶段后,棋局质量就会突然断崖式下跌。这一现象在整场比赛中反复出现:几步不错的开局之后,会出现判断偏差和一系列失误。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

尽管如此,o4-mini 在这场比赛中成功实现了两次将军——这是一个值得注意的成就,考虑到对 AI 系统来说,准确把握整个棋盘状态本身就具有相当的挑战性。

Gemini 2.5 Pro 对阵 Claude 4 Opus:4-0

Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯一一个通过「将杀」获胜的场次多于因违规行棋告负的场次的比赛。不过,目前尚不清楚 Gemini 2.5 Pro 的真实棋力究竟如何,也不确定其胜利在多大程度上得益于 Claude 4 Opus 的失误表现。

这场比赛第四局出现了一个耐人寻味的局面:Gemini 2.5 Pro 当时拥有 32 分的子力优势,棋盘上甚至有两个后。然而尽管火力全开,它在完成将杀的过程中仍然出现了送子的情况。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

但更值得分析的是本场比赛的第一局。前九个回合,双方 AI 都表现稳健,着法精妙。然而就在此时,执黑的 Claude 4 Opus 做出了一个草率的决定,走 10…g5。这步棋不仅白送一兵,还彻底破坏了己方王城的安全,直接加速了败局的到来。从双方 AI 的赛后评注中,我们可以看出一些端倪:

首届大模型对抗赛:DeepSeek、Kimi首轮出局

Grok 4 对阵 Gemini 2.5 Flash:4-0

今日表现最为亮眼的当属 Grok 4。除了以全胜战绩收获 4 分外,其棋艺水平也堪称目前最佳。虽然对手 Gemini 2.5 Flash 多次失误送子确实降低了比赛难度,但与其他 AI 不同的是,Grok 4 展现出了精准捕捉无保护棋子的能力,并能果断实施打击。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

Grok 4 的出色表现甚至引起了科技界的关注,其创始人埃隆・马斯克在 X 平台简短互动时,再次提及他那个著名观点——「国际象棋太过简单」。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

截至目前,大语言模型在象棋对弈中暴露出三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限,以及由此引发的合法着法执行问题。而 Grok 4 的出色表现证明,它似乎成功突破了这些限制。

这些 AI 模型的优势与缺陷能否在后续赛事中保持稳定?我们还要看明天的半决赛成绩。

文章中提及的棋局在线上国际象棋对弈网站 chess.com 中均有详细描述,感兴趣的读者可以参见以下链接:链接。国际象棋大师 Levy Rozman 也在最新录制的视频中对这场比赛进行了讲解。

我们曾在昨天的报道中发起了一个投票,目前已有近 4000 位读者参与。从目前的数据看,大家此前最看好的是 Gemini 2.5 Pro——赢得了超过 37% 的票数。

首届大模型对抗赛:DeepSeek、Kimi首轮出局

现在,第一天的比赛结果已经出炉,我们也稍微了解了各个模型的表现,不知道大家的想法有无变化呢?

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 8月 6日 下午3:54
下一篇 2025年 8月 6日 下午4:43

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!