人工智能技术的飞速发展催生出一些有趣的现象。例如,每当新的AI视频生成器发布,网络上便会涌现出大量威尔·史密斯享用意大利面的视频,这已成为检验AI图像生成能力的非正式标准,甚至被TechCrunch等科技媒体报道。这一现象已超越单纯的网络迷因,成为衡量AI生成能力的另类指标。

更有趣的是,威尔·史密斯本人也在Instagram上模仿了这一场景,进一步推动了这一网络热潮。这只是2024年AI领域众多“民间”评测标准的一个缩影。例如,一位16岁的开发者利用AI操控《我的世界》进行建筑设计测试;一位英国程序员则创建平台让AI进行“你画我猜”和“四子棋”等游戏对决,探索AI的娱乐潜能。这些测试方式虽然缺乏专业性,却意外走红,显示出公众对AI评估的独特需求。
相比之下,许多专业的AI基准测试,例如那些专注于解决复杂数学难题或博士级别问题的测试,对普通大众而言过于晦涩难懂。企业常以此展示AI的强大能力,却忽略了大多数人使用AI工具例如聊天机器人的主要目的:日常对话和简单任务处理。专业测试与大众需求的脱节,导致其影响力有限。
即使是像“聊天机器人竞技场”这类相对普及的AI评测平台,也存在局限性。该平台允许用户对AI在特定任务(如网页开发、图像生成)中的表现进行评分,但参与者多为人工智能和科技行业人士,评分标准容易受到个人偏好和专业背景影响,缺乏普适性和客观性,评测结果的客观性难以保证。
“四子棋”、“我的世界”建造以及“史密斯吃面条”等“民间”测试,虽然缺乏严谨的科学方法,却因其趣味性和易理解性而广受欢迎。它们以更直观的方式展现AI的能力,更贴近大众的日常认知。然而,需要注意的是,这些测试结果的普适性也较弱,AI在一个领域的成功并不能代表其在其他领域的同样出色。例如,能完美生成“史密斯吃面条”视频的AI,不一定能同样出色地生成汉堡图像,这体现了AI能力的专业性和局限性。