Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

北京时间2月18日，科技界瞩目已久的xAI携手马斯克，通过直播正式发布了Grok系列的最新模型——Grok3。此前，马斯克通过持续预热和信息释放，已将全球对Grok3的期待值推至高点。发布会承诺的强大能力与实际表现之间是否存在差距，成为了此次发布后的焦点。

发布会上，马斯克声称Grok3在数学、科学和编程领域表现卓越，甚至预言它将为SpaceX的火星探索任务贡献力量，并有望在未来三年内取得诺贝尔奖级别的科学突破。这类大胆预测引发了广泛关注，但其真实性仍有待考证。考虑到AI模型发展日新月异，这类远期预测往往伴随着极高的不确定性。

发布后不久，许多测试者第一时间体验了Grok3的Beta版本。然而，测试结果却令人略感失望。例如，Grok3在解答“9.11与9.9哪个大”这类简单问题时，竟然未能给出正确答案，这一现象迅速在网络上引发热议。

Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

不仅如此，海外用户也进行了类似的测试，结果显示Grok3在回答基础物理、数学问题时也显得力不从心。例如，“比萨斜塔上两个球哪个先落下”这样的经典问题同样难住了它。“天才不愿回答简单问题”的调侃声浪开始出现。这些测试暴露了Grok3在基础知识理解方面的不足，也引发了人们对其通用性的担忧。

更为尴尬的是，在xAI发布会直播现场，马斯克演示Grok3分析他声称常玩的游戏《流放之路2》的职业与升华效果时，Grok3给出的答案多数是错误的，而马斯克本人似乎并未注意到这一明显错误。这一幕不仅被网友调侃为马斯克游戏水平的“实锤”，更让人们对Grok3的可靠性产生了质疑。这也侧面反映出AI模型在处理复杂、特定领域知识时仍存在挑战。

Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

事实上，在发布会前的预热中，马斯克就曾表示xAI即将推出超越DeepSeek R1的AI模型。然而，实际测试表明，Grok3的表现并未明显优于DeepSeek R1或o1-Pro等其他主流模型。部分测试者甚至认为，Grok3在某些方面的表现不如其前辈。这表明，在当前AI技术发展阶段，超越现有顶尖模型并非易事。

Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

尽管官方PPT显示Grok3在大模型竞技场Chatbot Arena中取得了“遥遥领先”的成绩，但这一结果可能受到数据展示方式的影响。榜单的纵轴仅显示了1400-1300分段的排名，使得原本微小的差距在视觉上被放大。实际模型跑分结果显示，Grok3与DeepSeek R1及GPT4.0的差距仅为1%-2%。这种数据展示技巧虽然常见，但也容易 misleading 受众。

Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

值得注意的是，为了训练Grok3，马斯克投入了巨额资源。据他透露，Grok3的训练使用了超过20万张H100 GPU，总训练时间高达两亿小时。这一数字引发了业界对AI模型训练方向的讨论。然而，有网友对比发现，使用2000张H800训练两个月的DeepSeek V3，算力消耗仅为Grok3的263分之一，而两者在榜单上的差距却不到100分。这提示我们，算力投入与模型性能提升之间的关系并非简单的线性关系。

这一系列情况表明，随着模型规模的增大，性能提升的边际效应日益明显。即使是拥有海量高质量数据的xAI，也面临着优质训练数据不足的挑战。面对这一困境，马斯克在社交媒体上强调当前版本仅为测试版，未来几个月将推出完整版，并鼓励用户反馈问题。这表明xAI也在积极收集用户反馈，以优化Grok3的最终性能。

Grok3的初步表现无疑为那些试图通过“大力出奇迹”训练更强大模型的后来者敲响了警钟。随着模型参数规模的飞速增长，训练成本也在急剧上升。如何在有限的资源下实现模型性能的最大化，已成为行业亟待解决的关键问题。或许，正如OpenAI前首席科学家Ilya Sutskever所言，“预训练模型的时代即将结束”，未来的AI系统需要具备真正的自主性和类人脑的推理能力。这预示着AI研究的重心可能需要从单纯的模型规模扩张转向更高效、更智能的学习方法。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

Grok3“翻车”背后：大模型边际效应显现，AI训练新出路何在？

相关推荐

发表回复