Grok 3地球上最聪明AI名号受质疑，连9.11和9.9大小都分不清？

近日，埃隆·马斯克领导的xAI团队正式发布了备受瞩目的Grok 3。在发布前，马斯克对Grok 3给予了极高的评价，甚至将其誉为一次划时代的智能飞跃，引发了科技界的广泛关注和期待。然而，理想与现实之间往往存在差距，Grok 3的实际表现引发了一些讨论的声音。

发布会上，马斯克宣称Grok 3在数学、科学和编程等领域超越了所有主流模型，并计划将其应用于SpaceX的火星任务计算，甚至预测未来三年内将取得诺贝尔奖级别的科研成就。这种充满激情的描述，无疑提升了公众对Grok 3的期望值。然而，后续测试结果并未完全支撑这些雄心勃勃的愿景。

在发布会之后，一些媒体对Grok 3 Beta版进行了测试，并发现了一些短板。其中，一个看似简单的数学问题——“9.11与9.9哪个大？”——Grok 3未能给出正确答案，这一表现引发了网络上的热议和调侃。网友甚至戏称其为“不屑于回答简单问题的天才”，无疑是对其过高宣传的一种反讽。

更令人惊讶的是，在xAI发布会的直播过程中，Grok 3在分析游戏《流放之路 2》的职业与升华效果时，也出现了大量的错误答案。而马斯克本人在直播中似乎并未察觉这些明显的错误，这进一步引发了人们对其真实性能的质疑。这种疏忽也暴露出AI模型在特定领域的知识储备和理解能力可能存在的局限性。

虽然xAI的官方PPT显示，Grok 3在大模型竞技场Chatbot Arena中的表现优异，但深入分析后发现，其与DeepSeek R1和GPT4.0的差距仅为1%到2%。考虑到GPT-4已经发布一段时间，且DeepSeek R1相对更新，这种微弱的优势似乎难以支撑马斯克之前的高调宣传。这也反映出当前大型语言模型在性能提升方面，已经进入了瓶颈期，需要更加创新性的技术突破。

Grok 3地球上最聪明AI名号受质疑，连9.11和9.9大小都分不清？

马斯克透露，Grok 3使用了超过20万张H100芯片，训练耗时高达两亿小时。相比之下，DeepSeek V3仅使用2000张H800芯片训练两个月，便取得了与Grok 3相近的性能。这一对比，揭示了当前模型规模扩大带来的收益递减效应。换句话说，当模型达到一定规模后，投入更多的资源可能无法线性地提升性能，需要更高效的训练方法和模型架构创新。

Grok 3地球上最聪明AI名号受质疑，连9.11和9.9大小都分不清？

面对外界的质疑，马斯克在社交媒体上回应称，当前的Grok 3仅为测试版本，完整版将在未来几个月内发布。同时，他也诚邀用户反馈使用中的问题，积极收集数据以改进Grok 3的性能。这一表态暗示了Grok 3仍有改进的空间，同时也展现了xAI团队致力于解决当前问题的决心。未来Grok 3能否真正实现其宏伟目标，仍有待进一步观察和验证。

Grok 3地球上最聪明AI名号受质疑，连9.11和9.9大小都分不清？

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

Grok 3地球上最聪明AI名号受质疑，连9.11和9.9大小都分不清？

相关推荐

发表回复