AI推理模型受热捧，基准测试费用为何水涨船高？

人工智能（AI）技术的飞速发展，正引领我们进入一个全新的计算时代。其中，推理AI模型凭借其模拟人类思考的能力，在科研领域，尤其是在物理学等专业领域，展现出超越传统非推理模型的潜力，成为备受瞩目的焦点。然而，高昂的测试成本，正逐渐成为此类模型广泛应用和深入研究的一大瓶颈。

根据第三方AI测试机构“人工智能分析”提供的数据，不同推理模型的评估费用存在显著差异。例如，OpenAI的旗舰推理模型o1在七个主流AI基准测试中的评估费用高达2767.05美元，约合人民币20191元。相比之下，Anthropic的Claude 3.7 Sonnet混合推理模型的评估费用为1485.35美元，约合人民币10839元。而OpenAI的o3-mini-high模型评估费用则相对较低，仅需344.59美元，约合人民币2514元。尽管存在像OpenAI的o1-mini这样评估费用较低的模型（仅141.22美元，约合人民币1030元），但从整体来看，推理模型的测试成本仍然居高不下。这些数据清楚地表明，想要深入了解和优化推理模型，需要投入巨大的经济成本。

AI推理模型受热捧，基准测试费用为何水涨船高？

“人工智能分析”机构为了评估十几种推理模型，已经投入了约5200美元，约合人民币37945元。这一投入几乎是非推理模型评估费用（约2400美元）的两倍，凸显了推理模型测试的昂贵。值得注意的是，OpenAI在2024年5月发布的非推理GPT-4o模型评估成本仅为108.85美元，而Claude 3.6 Sonnet的评估成本甚至低至81.41美元。该机构的联合创始人乔治·卡梅伦表示，随着推理模型开发的日益增多，未来的测试预算还将持续增加，这无疑给相关研究机构和企业带来了更大的压力。

AI初创公司“通用推理”的首席执行官罗斯·泰勒也面临着同样的挑战。他表示，为了评估Claude 3.7 Sonnet模型，他们使用了约3700个独特的提示词，费用高达580美元。泰勒估计，仅仅对MMLU Pro进行一次完整测试的成本就可能超过1800美元。他担忧地指出，由于资源投入的差异，学术界可能难以复制实验室的报告结果，这可能会阻碍科研成果的验证和推广。这种担忧并非空穴来风，资源的限制可能会导致研究方向的偏差，从而影响整个AI生态的健康发展。

那么，推理模型测试成本为何如此高昂？一个关键因素在于其生成的token数量庞大。Token是原始文本的片段，例如将单词“fantastic”拆分为多个音节。据“人工智能分析”称，在基准测试中，OpenAI的o1模型生成了超过4400万个token，是GPT-4o生成量的八倍。由于目前大多数AI公司采取按token收费的模式，因此成本会迅速累积。这种基于token的收费模式，在一定程度上限制了研究人员进行大规模实验的可能性，尤其对于资源有限的学术机构和小微企业而言，更是雪上加霜。

现代基准测试通常包含复杂、多步骤任务的问题，这导致模型需要生成大量的token。Epoch AI的高级研究员让-斯坦尼斯拉斯·德内恩指出，尽管每个基准测试的问题数量总体减少，但问题本身变得更加复杂，旨在评估模型执行现实世界任务的能力，例如编写和执行代码、浏览互联网等。这种测试方式无疑更贴近实际应用场景，但也加剧了token的生成量。此外，最昂贵的模型每百万输出token的成本也在不断增加。例如，Anthropic发布的Claude 3 Opus模型每百万输出token的成本为75美元，而OpenAI的GPT-4.5和o1-pro模型的成本则分别高达150美元和600美元。这种成本的急剧上升，无疑给推理模型的研究和应用带来了更大的挑战。

德内恩表示，尽管随着技术进步，模型的性能不断提升，成本也有所下降，但评估最大、最好的模型仍然需要支付高昂的费用。值得注意的是，部分AI实验室，包括OpenAI，为了支持基准测试组织的需要，会提供免费或补贴的模型访问权限。然而，一些专家担忧这种做法可能会影响测试结果的公正性。如果测试结果受到人为因素的影响，那么基于这些结果所做的决策可能会出现偏差，最终阻碍AI技术的健康发展。因此，建立一套独立、透明、可信的AI评估体系，显得尤为重要。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AI推理模型受热捧，基准测试费用为何水涨船高？

相关推荐

发表回复