OpenAI 推出全新 o1 模型,迈入下一个时代

OpenAI o1 横空出世:AI 时代正式进入新纪元

在没有任何预告的情况下,OpenAI 悄然发布了其全新的 o1 模型,这个神秘的模型在内部代号为“草莓”,终于正式揭开了面纱。

OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

为什么叫 o1?

OpenAI 对 o1 的命名解释如下:

“For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.”

翻译过来就是:



对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。

OpenAI 不惜舍弃了 GPT 系列的命名,重新启用 o 系列,足见其对 o1 模型的自信和期待。

o1 的强大之处

o1 的发布标志着 AI 行业正式进入了一个全新的纪元,OpenAI 宣称:“我们通往 AGI 的路上,已经没有任何阻碍。”

在逻辑和推理能力上,o1 的表现令人惊叹,直接用数据说话:

  • AIME 2024,一个高水平的数学竞赛,GPT-4o 的准确率为 13.4%,而 o1 预览版的准确率是 56.7%,还未发布的 o1 正式版,是 83.3%。

  • 代码竞赛,GPT-4o 的准确率为 11.0%,o1 预览版为 62%,o1 正式版,是 89%。

  • 博士级科学问题 (GPQA Diamond),GPT-4o 是 56.1,人类专家水平是 69.7,o1 达到了恐怖的 78%。

在测试化学、物理和生物学专业知识的基准 GPQA-diamond 上,o1 的表现全面超过了人类博士专家,这是有史以来,第一个获得此成就的模型。

OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

o1 的成功,得益于 Self-play RL 技术的应用。通过 Self-play RL,o1 学会了磨练其思维链并完善所使用的策略,它可以识别和纠正自己的错误,将复杂的步骤分解为更简单的步骤,甚至在当前方法不起作用时,尝试不同的方法。

o1 学会的这些思考方式,正是我们人类最核心的思考方式:慢思考

慢思考:AI 的新纪元

诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》一书中详细阐述了人类的两种思考方式:

  • 快思考(系统 1)

    特点是快速、自动、直觉性、无意识,例如:

    • 看到一个笑脸就知道对方心情很好。
    • 1+1=2 这样简单的计算。
    • 开车时遇到危险情况立即踩刹车。

    快思考是传统的大模型所擅长的,它们通过死记硬背学习了快速反应的能力。

  • 慢思考(系统 2)

    特点是缓慢、需要努力、逻辑性、有意识,例如:

    • 解决一道复杂的数学题
    • 填写税务申报表
    • 权衡利弊后做出重要决定

    慢思考是人类之所以强大的核心,也是 AI 要通往下一步 AGI 路上的基石。

o1 终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前会反复思考、拆解、理解、推理,然后给出最终答案。

o1 的应用前景

o1 强大的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用,它可以被应用于:

  • 医疗研究人员用来注释细胞测序数据
  • 物理学家用来生成量子光学所需的复杂数学公式
  • 各个领域的开发人员用来构建和执行多步骤工作流

o1 不仅仅是一个强大的工具,更是一个全新一代的数据飞轮。随着正确答案的积累,整个逻辑链会变成一个包含正负奖励的训练示例的小型数据集,进一步推动 AI 的进化速度。

o1 的使用体验

目前,o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放,未来会考虑对免费用户开放。

OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

o1 模型分为两个版本:o1 预览版和 o1 mini。

  • o1 预览版每周 30 条,专注于逻辑推理能力,适用于需要深度推理的复杂问题。

  • o1 mini 每周 50 条,更快更小更便宜,适合数学和代码相关任务,但世界知识会差很多,适用于不需要广泛世界知识的场景。

o1 的使用限制非常严格,特别是对于开发者来说,仅对已经付过 1000 美刀的等级 5 开发者开放,每分钟限制 20 次。

在功能上也进行了阉割,不过毕竟是早期版本,可以理解。

OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

o1 的推理成本非常高,o1 预览版每百万输入 15 美元,每百万输出 60 美元,o1 mini 则相对便宜一些,每百万输入 3 美元,每百万输出 12 美元。

o1-mini 虽然价格相对便宜一些,但也需要等待 OpenAI 的降价。

o1 模型目前不支持曾经的所有功能,例如图片理解、图片生成、代码解释器、网页搜索等等,只有一个可以对话的裸模型。

OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

o1 的实际表现

我们用一些经典的难题测试了 o1 的能力:

  • “农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”

    o1 在 6 秒内给出了一个完美的答案。

    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

  • “这是中国 2024 年 9 月 9 日(星期一)开始到 10 月 13 日的放假调休安排: 上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。 请你告诉我除了我本来该休的周末,我因为放假多休息了几天?”

    o1 在 30 秒内给出了一个精准的答案。

    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

  • “姜萍比赛的奥数题”(具体题目请见下图)

    o1 在 1 分钟内给出了正确答案。

    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。
    OpenAI全新发布o1模型 – 我们正式迈入了下一个时代。

o1 的表现令人惊叹,它成功解决了困扰了所有大模型的难题,展示了其强大的推理能力。

o1 的未来

o1 的出现,让我们对 AI 的未来充满了期待,它不仅仅是一个新的模型,更是我们前往下个时代,最伟大的基石。

我们相信,o1 的未来,绝对不止是一个普普通通的 ChatGPT,它将引领我们迈入一个全新的 AI 时代,一个充满无限可能性的时代!

“我们通往 AGI 的路上,已经没有任何阻碍。”

现在,我们毫不犹豫地坚信着这句话。

星光熠熠的下一个时代,在今天,正式到来了。

    免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
    (0)
    AI快讯网编辑-青青AI快讯网编辑-青青
    上一篇 2024年 9月 13日 上午11:40
    下一篇 2024年 9月 13日 上午11:59

    相关推荐

    发表回复

    您的邮箱地址不会被公开。 必填项已用 * 标注

    欢迎来到AI快讯网,开启AI资讯新时代!