人工智能领域迎来一次引人注目的突破。谷歌研发的Gemini 2.5 Pro大型语言模型(LLM)在直播中成功通关经典游戏《宝可梦蓝》,引发了科技界和游戏爱好者的广泛关注。谷歌CEO Sundar Pichai 在社交媒体上分享了这一喜讯,同时发布了通关时的精彩瞬间。
Gemini 2.5 Pro的成功通关,标志着大型模型在游戏领域的又一次重要进展。网友们对此感到兴奋不已,纷纷表示可以为Gemini的自我介绍增添一项新的成就:“首个荣获宝可梦联盟冠军并载入《宝可梦蓝》名人堂的大型模型”。
回顾Gemini系列的进化历程,可见其进步之迅速。一年前,旧模型Claude 3.5 尚且只能勉强走出新手村,困于常磐森林。两个月前,Claude 3.7 虽然具备了击败道馆主的能力,但距离通关仍有较大差距。而今,Gemini 2.5 Pro 终于完成了这一飞跃,体现了谷歌在AI技术上的持续投入和显著提升。
直播画面显示,Gemini 2.5 Pro 的每一步行动都经过周密的思考。屏幕左侧的文本框详细记录了每一次行动背后的决策过程。据统计,Gemini 2.5 Pro 在抵达目标位置后,往往需要进行长达40秒以上的深度思考,消耗超过76000个token,才能最终确定下一步行动方案。这种严谨的决策方式,虽然让直播节奏显得略为缓慢,但同时也展现了大型模型在游戏中的专注度和策略规划能力。
值得注意的是,尽管Gemini已经成为联盟冠军,但与人类玩家相比,尤其是在面对主要受众为儿童和青少年的《宝可梦》游戏时,大型模型在部分方面仍存在短板。一个主要的限制在于,大模型在解读Game Boy 屏幕上低分辨率、像素化的图像方面存在困难,这在一定程度上阻碍了其对游戏环境的整体理解。此外,游戏中相对简陋的二维地图也可能对大模型构成挑战。 然而,在涉及文本处理和理解的环节,例如宝可梦对战中的游戏提示,大模型则表现出了强大的能力,能够迅速理解并将其融入战斗策略中。 这暗示着,未来的大型模型在游戏领域的应用方向,可能更多地聚焦于策略分析、辅助决策等领域。
总的来说,谷歌的这项突破为大型模型在游戏领域的应用开辟了新的可能性。 虽然目前仍存在一些局限性,但随着技术的不断发展,我们有理由期待未来会有更多的大型模型进入游戏世界,甚至与人类玩家展开更深层次的互动合作。而“通关宝可梦”或许也真的会成为衡量人工智能技术水平的一个新的基准。