马斯克发布Grok 4，荣登榜首，年费突破2万+

所有学科都是博士后水平。

酝酿已久的 xAI 下一代大模型——Grok 4 终于在今天发布了！这款大模型的能力超乎我们的想象。

北京时间今天中午 12 点左右，xAI 高度期待的发布会正式拉开帷幕，特斯拉 CEO 马斯克亲自现身直播间，宣布这个新一代的人工智能模型：“这是世界上最优秀的 AI，我们即将展示它的能力。”

马斯克表示，Grok 4 每次都能在 SAT 考试（美国高考）中获得满分，无需事先查看题目，它也可以在 GRE 任何学科中接近满分，超过了全世界所有研究生的水平。最令人瞩目的是，Grok 4 的推理能力已经达到了超越人类的水平。

马斯克对未来充满信心，相信 Grok 4 有能力在年内实现重大的科学新发现。

Grok 4 的推理能力相对于前代大幅提升了 10 倍。从 Grok 2 到 Grok 4，技术范式历经多次迭代，分别为下一个 token 预测、预训练计算、预训练 + RL、RL 计算。尤其是从 Grok 2 到 Grok 3，在预训练阶段的计算量就增加了 10 倍，Grok 3 reasoning 首次引入了强化学习（RL）微调，显著增强了模型的深度推理能力。而在 Grok 4 reasoning 中，强化学习的计算量再度提升了 10 倍，这标志着推理能力的又一次飞跃。

此外，由于调用工具能力的提升，Grok 4 的综合智慧得到了进一步放大。因此，它能够在各类高难度 Benchmark 上实现远超现有最先进技术（SOTA）的成绩。

重头戏来了：Grok 4 的基准测试结果。

首先是 HLE（Humanities Last Exam，人类最后的考试），涵盖数学、化学和逻辑学。上周六泄露的测试结果显示，Grok 4 在 HLE 上的标准得分为 35%，使用推理技术后提高到 45%，但许多网友对此持怀疑态度。

在今天的直播中，xAI 研究人员指出，以往的 SOTA 模型在使用工具时，成绩最高可以达到 41.0%。而 Grok 4 在这一测试中表现出色，即使在基本配置下也能达到 38.6% 的成绩，而高级配置下的 Grok 4 Heavy 成绩更是飙升至 44.4%。如果允许大模型在测试时花费更多时间思考并使用更多的外部工具，HLE 的分数还可以进一步提升到 50.7%。

再来看其他基准测试结果，包括 GPQA（研究生级别的 Google 验证问答基准测试）、AIME25（美国数学竞赛邀请赛）、LCB（Jan-May）（编程竞赛 / 在线算法竞赛）、HMMT25（高中生团队数学竞赛）和 USAMO25（美国顶级高中生数学竞赛）。如下图所示，Grok 4 Heavy 在这些领域均取得了最新的 SOTA 成绩。

Grok 4 的多面手属性更强了。不仅在语言基准测试上表现出色，其他方面也同样得到了加强。

其中，Grok 4 的语音能力比上一代提高了两倍，端到端延迟更低，支持 5 种语音，单日用户总停留时长也提升了 10 倍。

新增的角色 Eve 和 Sal 现已可在 iOS 版 Grok 中使用。Sal 支持多种性格设定，而 Eve 可以唱歌和低语，进一步丰富了用户体验。

在 ARC-AGI 基准测试集中，Grok 4 也表现出色。这项测试专门设计用于评估人工智能系统的通用推理能力，被认为是通往 AGI（通用人工智能）的重要试金石。Grok 4 在 ARC-AGI-2 上的得分为 15.9%，几乎达到了之前商业 SOTA 的两倍，并且超越了当前的 Kaggle 竞赛 SOTA。

在 Vending-Bench 基准测试中，该测试专注于评估智能体在真实物理世界中执行复杂操作任务的能力，旨在解决传统模拟环境（如 Habitat、AI2-THOR）与真实世界之间的“Sim2Real Gap”（仿真到现实的鸿沟）。Grok 4 在这一基准上也取得了显著优势，领先于 Claude Opus 4、Human、Gemini 2.5 Pro 和 o3。

Grok 4 通过 API 调用，提供了 256K tokens 的上下文窗口。目前，Grok 4 已经开放使用，版本号为 grok-4-0709，价格与 Grok 3 相同。根据 Artificial Analysis 的测试，xAI 的 API 当前以每秒 75 个 token 的速度提供 Grok 4 服务，虽然速度不及 o3（每秒 188 个 token），但优于 Claude 4 Opus Thinking（每秒 66 个 token）。

Grok 4 不仅可以用于制作游戏，还能实际运行游戏，深入洞察优秀游戏的设计要素并提出改进意见。DannyLimanseta 在短短 4 小时内就用 Grok 4 制作了一款 FPS 射击游戏，展示了其强大的应用潜力。

展望未来，xAI 预计还将陆续发布代码模型、多模态智能体和视频生成模型，新产品发布的频率将会达到每月一次。

然而，Grok 4 的上线也需要用户付出相应的代价。目前，Grok 4 已经正式推出，但需要付费使用。其付费模式分为年付和月付两种，其中 SuperGrok 的年费为 300 美元（约合人民币 2154 元），而 SuperGrok Heavy 的年费则高达 3000 美元（约合人民币 21540 元）。

尽管价格昂贵，但 Grok 4 强大的功能和广泛的适用性使其成为当今最值得关注的人工智能模型之一。

官网链接：https://grok.com/

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

马斯克发布Grok 4，荣登榜首，年费突破2万+

相关推荐

发表回复