北京时间2月18日,科技界瞩目已久的xAI携手马斯克,通过直播正式发布了Grok系列的最新模型——Grok3。此前,马斯克通过持续预热和信息释放,已将全球对Grok3的期待值推至高点。发布会承诺的强大能力与实际表现之间是否存在差距,成为了此次发布后的焦点。
发布会上,马斯克声称Grok3在数学、科学和编程领域表现卓越,甚至预言它将为SpaceX的火星探索任务贡献力量,并有望在未来三年内取得诺贝尔奖级别的科学突破。这类大胆预测引发了广泛关注,但其真实性仍有待考证。考虑到AI模型发展日新月异,这类远期预测往往伴随着极高的不确定性。
发布后不久,许多测试者第一时间体验了Grok3的Beta版本。然而,测试结果却令人略感失望。例如,Grok3在解答“9.11与9.9哪个大”这类简单问题时,竟然未能给出正确答案,这一现象迅速在网络上引发热议。

不仅如此,海外用户也进行了类似的测试,结果显示Grok3在回答基础物理、数学问题时也显得力不从心。例如,“比萨斜塔上两个球哪个先落下”这样的经典问题同样难住了它。“天才不愿回答简单问题”的调侃声浪开始出现。这些测试暴露了Grok3在基础知识理解方面的不足,也引发了人们对其通用性的担忧。
更为尴尬的是,在xAI发布会直播现场,马斯克演示Grok3分析他声称常玩的游戏《流放之路2》的职业与升华效果时,Grok3给出的答案多数是错误的,而马斯克本人似乎并未注意到这一明显错误。这一幕不仅被网友调侃为马斯克游戏水平的“实锤”,更让人们对Grok3的可靠性产生了质疑。这也侧面反映出AI模型在处理复杂、特定领域知识时仍存在挑战。

事实上,在发布会前的预热中,马斯克就曾表示xAI即将推出超越DeepSeek R1的AI模型。然而,实际测试表明,Grok3的表现并未明显优于DeepSeek R1或o1-Pro等其他主流模型。部分测试者甚至认为,Grok3在某些方面的表现不如其前辈。这表明,在当前AI技术发展阶段,超越现有顶尖模型并非易事。

尽管官方PPT显示Grok3在大模型竞技场Chatbot Arena中取得了“遥遥领先”的成绩,但这一结果可能受到数据展示方式的影响。榜单的纵轴仅显示了1400-1300分段的排名,使得原本微小的差距在视觉上被放大。实际模型跑分结果显示,Grok3与DeepSeek R1及GPT4.0的差距仅为1%-2%。这种数据展示技巧虽然常见,但也容易 misleading 受众。

值得注意的是,为了训练Grok3,马斯克投入了巨额资源。据他透露,Grok3的训练使用了超过20万张H100 GPU,总训练时间高达两亿小时。这一数字引发了业界对AI模型训练方向的讨论。然而,有网友对比发现,使用2000张H800训练两个月的DeepSeek V3,算力消耗仅为Grok3的263分之一,而两者在榜单上的差距却不到100分。这提示我们,算力投入与模型性能提升之间的关系并非简单的线性关系。
这一系列情况表明,随着模型规模的增大,性能提升的边际效应日益明显。即使是拥有海量高质量数据的xAI,也面临着优质训练数据不足的挑战。面对这一困境,马斯克在社交媒体上强调当前版本仅为测试版,未来几个月将推出完整版,并鼓励用户反馈问题。这表明xAI也在积极收集用户反馈,以优化Grok3的最终性能。
Grok3的初步表现无疑为那些试图通过“大力出奇迹”训练更强大模型的后来者敲响了警钟。随着模型参数规模的飞速增长,训练成本也在急剧上升。如何在有限的资源下实现模型性能的最大化,已成为行业亟待解决的关键问题。或许,正如OpenAI前首席科学家Ilya Sutskever所言,“预训练模型的时代即将结束”,未来的AI系统需要具备真正的自主性和类人脑的推理能力。这预示着AI研究的重心可能需要从单纯的模型规模扩张转向更高效、更智能的学习方法。