OpenAI最新发布的o1大模型在科技界引发巨大关注。相比此前9月发布的o1-preview和o1 mini版本,o1在科学、代码、数学等领域的解题能力,以及智能化程度、多模态输入和响应速度方面均实现了显著提升,标志着大型语言模型技术的一次重要突破。
OpenAI首席执行官Sam Altman表示,o1模型在降低重大错误率方面取得了显著进展,相比o1-preview降低了约34%,同时思考速度提升近50%。这一进步主要归功于o1在每次回答前进行深度思考的独特机制,使其能够提供更准确、更详尽的答案,显著优于其他同类模型。这种深度思考机制也意味着o1在处理复杂问题时会花费更多时间。
在应对复杂问题,例如AIME 2024数学竞赛题目和博士级科学问题方面,o1展现了令人印象深刻的准确率。具体而言,o1在AIME 2024竞赛中的准确率达到78.3%,在博士级科学问题解答中准确率达到75.6%,分别比o1-preview提升了28.3%和1.5%。这表明o1有潜力成为科学研究和学术探索的强大工具。然而,仍需注意,即使是o1,在这些高难度问题上的准确率也并非百分百,未来仍有提升空间。
o1在响应速度方面也表现出色。离线测试显示,其平均响应速度比o1-preview快约60%。在公开演示中,o1仅用14秒列举并简述了公元2世纪的罗马皇帝,而o1-preview则需要33秒。这种速度提升,结合其深度思考机制,使得o1能够根据问题的复杂程度,灵活调整响应时间,对于简单问题快速作答,对于复杂问题则进行深入思考后再给出答案。
此外,o1模型新增了多模态输入能力,可以同时处理图片和文本信息,并进行逻辑推理。在一个演示中,o1成功地解读了一张包含太阳、冷却系统等物体的手绘草图以及相关数值,并无须额外提示,自行推断出用户可能提出的问题并给出正确答案,展现了其强大的图像理解和逻辑推理能力。这一功能的加入极大地扩展了o1的应用场景。

为了满足用户对大模型无限制使用的需求,OpenAI推出了新的订阅服务ChatGPT Pro,每月200美元即可无限制使用更强大的o1 Pro版本。对比测试显示,在多次询问同一问题后,o1 Pro在数学竞赛、代码竞赛和博士级科学问题上的准确率最高,分别达到80.0%、74.9%和74.2%。 这也反映出,多次询问和模型迭代对结果准确性的影响不容忽视。



