OpenAI o1 横空出世:AI 时代正式进入新纪元
在没有任何预告的情况下,OpenAI 悄然发布了其全新的 o1 模型,这个神秘的模型在内部代号为“草莓”,终于正式揭开了面纱。

为什么叫 o1?
OpenAI 对 o1 的命名解释如下:
“For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.”
翻译过来就是:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。
OpenAI 不惜舍弃了 GPT 系列的命名,重新启用 o 系列,足见其对 o1 模型的自信和期待。
o1 的强大之处
o1 的发布标志着 AI 行业正式进入了一个全新的纪元,OpenAI 宣称:“我们通往 AGI 的路上,已经没有任何阻碍。”
在逻辑和推理能力上,o1 的表现令人惊叹,直接用数据说话:
-
AIME 2024,一个高水平的数学竞赛,GPT-4o 的准确率为 13.4%,而 o1 预览版的准确率是 56.7%,还未发布的 o1 正式版,是 83.3%。
-
代码竞赛,GPT-4o 的准确率为 11.0%,o1 预览版为 62%,o1 正式版,是 89%。
-
博士级科学问题 (GPQA Diamond),GPT-4o 是 56.1,人类专家水平是 69.7,o1 达到了恐怖的 78%。
在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o1 的表现全面超过了人类博士专家,这是有史以来,第一个获得此成就的模型。


o1 的成功,得益于 Self-play RL 技术的应用。通过 Self-play RL,o1 学会了磨练其思维链并完善所使用的策略,它可以识别和纠正自己的错误,将复杂的步骤分解为更简单的步骤,甚至在当前方法不起作用时,尝试不同的方法。
o1 学会的这些思考方式,正是我们人类最核心的思考方式:慢思考。
慢思考:AI 的新纪元
诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中详细阐述了人类的两种思考方式:
-
快思考(系统 1)
特点是快速、自动、直觉性、无意识,例如:
- 看到一个笑脸就知道对方心情很好。
- 1+1=2 这样简单的计算。
- 开车时遇到危险情况立即踩刹车。
快思考是传统的大模型所擅长的,它们通过死记硬背学习了快速反应的能力。
-
慢思考(系统 2)
特点是缓慢、需要努力、逻辑性、有意识,例如:
- 解决一道复杂的数学题
- 填写税务申报表
- 权衡利弊后做出重要决定
慢思考是人类之所以强大的核心,也是 AI 要通往下一步 AGI 路上的基石。
o1 终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前会反复思考、拆解、理解、推理,然后给出最终答案。
o1 的应用前景
o1 强大的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用,它可以被应用于:
- 医疗研究人员用来注释细胞测序数据
- 物理学家用来生成量子光学所需的复杂数学公式
- 各个领域的开发人员用来构建和执行多步骤工作流
o1 不仅仅是一个强大的工具,更是一个全新一代的数据飞轮。随着正确答案的积累,整个逻辑链会变成一个包含正负奖励的训练示例的小型数据集,进一步推动 AI 的进化速度。
o1 的使用体验
目前,o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放,未来会考虑对免费用户开放。

o1 模型分为两个版本:o1 预览版和 o1 mini。
-
o1 预览版每周 30 条,专注于逻辑推理能力,适用于需要深度推理的复杂问题。
-
o1 mini 每周 50 条,更快更小更便宜,适合数学和代码相关任务,但世界知识会差很多,适用于不需要广泛世界知识的场景。
o1 的使用限制非常严格,特别是对于开发者来说,仅对已经付过 1000 美刀的等级 5 开发者开放,每分钟限制 20 次。
在功能上也进行了阉割,不过毕竟是早期版本,可以理解。




o1 的推理成本非常高,o1 预览版每百万输入 15 美元,每百万输出 60 美元,o1 mini 则相对便宜一些,每百万输入 3 美元,每百万输出 12 美元。
o1-mini 虽然价格相对便宜一些,但也需要等待 OpenAI 的降价。
o1 模型目前不支持曾经的所有功能,例如图片理解、图片生成、代码解释器、网页搜索等等,只有一个可以对话的裸模型。

o1 的实际表现
我们用一些经典的难题测试了 o1 的能力:
-
“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”
o1 在 6 秒内给出了一个完美的答案。
“这是中国 2024 年 9 月 9 日(星期一)开始到 10 月 13 日的放假调休安排: 上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。 请你告诉我除了我本来该休的周末,我因为放假多休息了几天?”
o1 在 30 秒内给出了一个精准的答案。

“姜萍比赛的奥数题”(具体题目请见下图)
o1 在 1 分钟内给出了正确答案。


o1 的表现令人惊叹,它成功解决了困扰了所有大模型的难题,展示了其强大的推理能力。
o1 的未来
o1 的出现,让我们对 AI 的未来充满了期待,它不仅仅是一个新的模型,更是我们前往下个时代,最伟大的基石。
我们相信,o1 的未来,绝对不止是一个普普通通的 ChatGPT,它将引领我们迈入一个全新的 AI 时代,一个充满无限可能性的时代!
“我们通往 AGI 的路上,已经没有任何阻碍。”
现在,我们毫不犹豫地坚信着这句话。
星光熠熠的下一个时代,在今天,正式到来了。