AI评测新趋势：接地气的大比拼

人工智能技术的飞速发展催生出一些有趣的现象。例如，每当新的AI视频生成器发布，网络上便会涌现出大量威尔·史密斯享用意大利面的视频，这已成为检验AI图像生成能力的非正式标准，甚至被TechCrunch等科技媒体报道。这一现象已超越单纯的网络迷因，成为衡量AI生成能力的另类指标。

AI评测新趋势：接地气的大比拼

更有趣的是，威尔·史密斯本人也在Instagram上模仿了这一场景，进一步推动了这一网络热潮。这只是2024年AI领域众多“民间”评测标准的一个缩影。例如，一位16岁的开发者利用AI操控《我的世界》进行建筑设计测试；一位英国程序员则创建平台让AI进行“你画我猜”和“四子棋”等游戏对决，探索AI的娱乐潜能。这些测试方式虽然缺乏专业性，却意外走红，显示出公众对AI评估的独特需求。

相比之下，许多专业的AI基准测试，例如那些专注于解决复杂数学难题或博士级别问题的测试，对普通大众而言过于晦涩难懂。企业常以此展示AI的强大能力，却忽略了大多数人使用AI工具例如聊天机器人的主要目的：日常对话和简单任务处理。专业测试与大众需求的脱节，导致其影响力有限。

即使是像“聊天机器人竞技场”这类相对普及的AI评测平台，也存在局限性。该平台允许用户对AI在特定任务（如网页开发、图像生成）中的表现进行评分，但参与者多为人工智能和科技行业人士，评分标准容易受到个人偏好和专业背景影响，缺乏普适性和客观性，评测结果的客观性难以保证。

“四子棋”、“我的世界”建造以及“史密斯吃面条”等“民间”测试，虽然缺乏严谨的科学方法，却因其趣味性和易理解性而广受欢迎。它们以更直观的方式展现AI的能力，更贴近大众的日常认知。然而，需要注意的是，这些测试结果的普适性也较弱，AI在一个领域的成功并不能代表其在其他领域的同样出色。例如，能完美生成“史密斯吃面条”视频的AI，不一定能同样出色地生成汉堡图像，这体现了AI能力的专业性和局限性。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

AI评测新趋势：接地气的大比拼

相关推荐

发表回复