马斯克Grok 3智商遭质疑:分不清9.11与9.9大小

近期,埃隆·马斯克及其xAI团队发布了备受瞩目的Grok 3。 发布前,马斯克通过各种预热活动,成功将公众的期待推向顶峰。 然而,尽管马斯克对Grok 3 寄予厚望,并给出了极高的评价,但从目前的测评结果来看,Grok 3 的实际表现并未达到预期的高度。

在发布会上,马斯克充满信心地宣称,Grok 3 在数学、科学和编程等领域的基准测试中,已经超越了所有主流模型。 他甚至表示,计划将 Grok 3 应用于 SpaceX 的火星任务计算, 并大胆预测 Grok 3 有望在未来三年内取得诺贝尔奖级别的突破。 如此豪言壮语,无疑让人们对 Grok 3 充满了期待。

然而,发布会后,一些媒体对 Grok 3 进行了实际测试,结果却略显尴尬。 例如,当被问及“9.11 与 9.9 哪个大”这个简单问题时,这个号称“目前最聪明”的 Grok 3 竟然未能给出正确答案,这一表现迅速引发了网络上的调侃和质疑。 这种基础逻辑错误,不禁让人对其宣称的强大性能产生疑问。

马斯克Grok 3智商遭质疑:分不清9.11与9.9大小

更令人惊讶的是,在 xAI 发布会直播中,Grok 3 在分析游戏《流放之路 2》的职业与升华效果时,也出现了大量错误答案。 更为尴尬的是,马斯克本人在直播过程中似乎并未注意到这些明显的错误。 这一系列问题,无疑加剧了人们对 Grok 3 实际能力的质疑。 考虑到模型的复杂性,在特定领域出现偏差情有可原,但如此明显的错误未被及时发现,也暴露出团队在测试和演示环节可能存在疏忽。

官方PPT中,Grok 3 在大模型竞技场 Chatbot Arena 中表现看似优异,但实际上,其与 DeepSeek R1 和 GPT-4 的差距仅为 1% 到 2%。 这一数据表明,随着模型规模的不断扩大,性能提升的边际效应已经越来越明显。这意味着,为了获得微小的性能提升,可能需要投入巨大的计算资源和训练时间。从技术角度来看,未来的研发重点可能需要放在模型架构的创新,而非单纯的堆砌算力。

马斯克Grok 3智商遭质疑:分不清9.11与9.9大小

在发布会上,马斯克透露,Grok 3 使用了超过 20 万张 H100 芯片,总训练小时数达到两亿小时。 然而,相较之下,DeepSeek V3 仅使用了 2000 张 H800 芯片训练两个月,就取得了与 Grok 3 相差无几的性能。 这种对比,进一步凸显了 Grok 3 在性能提升上所面临的挑战。 如此巨大的资源投入未能带来相应的性能飞跃,无疑引发了关于训练效率和模型架构的讨论。

马斯克Grok 3智商遭质疑:分不清9.11与9.9大小

面对外界的质疑与批评,马斯克在社交媒体上回应称,当前的 Grok 3 仅为测试版本,完整版本将在未来几个月内推出。 他同时邀请用户积极反馈使用过程中遇到的问题,并承诺将根据这些反馈进行改进与优化。 然而,对于已经对 Grok 3 产生怀疑的用户而言,这样的表态是否能够重新挽回他们的信任,仍然是一个未知数。 考虑到大型语言模型的复杂性和迭代周期,后续版本的改进效果将直接决定 Grok 3 的市场竞争力。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 2月 19日 下午3:22
下一篇 2025年 2月 19日 下午5:44

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!