人工智能(AI)技术的飞速发展,正引领我们进入一个全新的计算时代。其中,推理AI模型凭借其模拟人类思考的能力,在科研领域,尤其是在物理学等专业领域,展现出超越传统非推理模型的潜力,成为备受瞩目的焦点。然而,高昂的测试成本,正逐渐成为此类模型广泛应用和深入研究的一大瓶颈。
根据第三方AI测试机构“人工智能分析”提供的数据,不同推理模型的评估费用存在显著差异。例如,OpenAI的旗舰推理模型o1在七个主流AI基准测试中的评估费用高达2767.05美元,约合人民币20191元。相比之下,Anthropic的Claude 3.7 Sonnet混合推理模型的评估费用为1485.35美元,约合人民币10839元。而OpenAI的o3-mini-high模型评估费用则相对较低,仅需344.59美元,约合人民币2514元。尽管存在像OpenAI的o1-mini这样评估费用较低的模型(仅141.22美元,约合人民币1030元),但从整体来看,推理模型的测试成本仍然居高不下。这些数据清楚地表明,想要深入了解和优化推理模型,需要投入巨大的经济成本。

“人工智能分析”机构为了评估十几种推理模型,已经投入了约5200美元,约合人民币37945元。这一投入几乎是非推理模型评估费用(约2400美元)的两倍,凸显了推理模型测试的昂贵。值得注意的是,OpenAI在2024年5月发布的非推理GPT-4o模型评估成本仅为108.85美元,而Claude 3.6 Sonnet的评估成本甚至低至81.41美元。该机构的联合创始人乔治·卡梅伦表示,随着推理模型开发的日益增多,未来的测试预算还将持续增加,这无疑给相关研究机构和企业带来了更大的压力。
AI初创公司“通用推理”的首席执行官罗斯·泰勒也面临着同样的挑战。他表示,为了评估Claude 3.7 Sonnet模型,他们使用了约3700个独特的提示词,费用高达580美元。泰勒估计,仅仅对MMLU Pro进行一次完整测试的成本就可能超过1800美元。他担忧地指出,由于资源投入的差异,学术界可能难以复制实验室的报告结果,这可能会阻碍科研成果的验证和推广。这种担忧并非空穴来风,资源的限制可能会导致研究方向的偏差,从而影响整个AI生态的健康发展。
那么,推理模型测试成本为何如此高昂?一个关键因素在于其生成的token数量庞大。Token是原始文本的片段,例如将单词“fantastic”拆分为多个音节。据“人工智能分析”称,在基准测试中,OpenAI的o1模型生成了超过4400万个token,是GPT-4o生成量的八倍。由于目前大多数AI公司采取按token收费的模式,因此成本会迅速累积。这种基于token的收费模式,在一定程度上限制了研究人员进行大规模实验的可能性,尤其对于资源有限的学术机构和小微企业而言,更是雪上加霜。
现代基准测试通常包含复杂、多步骤任务的问题,这导致模型需要生成大量的token。Epoch AI的高级研究员让-斯坦尼斯拉斯·德内恩指出,尽管每个基准测试的问题数量总体减少,但问题本身变得更加复杂,旨在评估模型执行现实世界任务的能力,例如编写和执行代码、浏览互联网等。这种测试方式无疑更贴近实际应用场景,但也加剧了token的生成量。此外,最昂贵的模型每百万输出token的成本也在不断增加。例如,Anthropic发布的Claude 3 Opus模型每百万输出token的成本为75美元,而OpenAI的GPT-4.5和o1-pro模型的成本则分别高达150美元和600美元。这种成本的急剧上升,无疑给推理模型的研究和应用带来了更大的挑战。
德内恩表示,尽管随着技术进步,模型的性能不断提升,成本也有所下降,但评估最大、最好的模型仍然需要支付高昂的费用。值得注意的是,部分AI实验室,包括OpenAI,为了支持基准测试组织的需要,会提供免费或补贴的模型访问权限。然而,一些专家担忧这种做法可能会影响测试结果的公正性。如果测试结果受到人为因素的影响,那么基于这些结果所做的决策可能会出现偏差,最终阻碍AI技术的健康发展。因此,建立一套独立、透明、可信的AI评估体系,显得尤为重要。