OpenAI 近期发布了两款备受瞩目的全新 AI 模型——o3 和 o4-mini。业界普遍认为,这两款模型代表了 OpenAI 在人工智能领域迄今为止取得的最为强大和智能的成就,预示着 AI 技术发展的新阶段。
相较于以往的图像识别技术,o3 和 o4-mini 的一个关键突破在于其展现出的真正的视觉推理能力。这意味着 AI 不再仅仅是被动地“看到”图像,而是能够主动理解和分析视觉信息,从而进行更深层次的思考。例如,它们可以根据场景中的物体和关系推断出事件的发生,或预测未来的发展趋势。这种能力让 AI 能够更好地理解世界,并做出更智能的决策。

更令人印象深刻的是,o3 和 o4-mini 展现出强大的多模态处理能力。它们不仅能够同时处理文本、图像和音频信息,还能作为智能 Agent 自动调用网络搜索、图像生成、代码解析等工具。此外,它们还具备深度思考模式,能够进行更为复杂的逻辑推理和问题解决。这种全面的能力使得 o3 和 o4-mini 在处理现实世界中复杂任务时能够更加灵活和高效。这种集成多个工具和思考模式的能力,使得模型可以模拟人类解决问题的过程,而不仅仅是基于数据进行简单的预测。
OpenAI 通过强化学习成功训练了 o3 和 o4-mini 如何有效地使用各种工具。它们不仅知道何时以及如何使用这些工具,还能以正确的格式快速生成可靠的答案。这种工具使用能力的提升,显著地增强了 AI 的实用性和效率,使其能够更好地服务于各种应用场景。


为了量化 o3 和 o4-mini 的性能提升,OpenAI 公布了它们在 AIME 数学竞赛中的表现。在 2024 年的竞赛题目中,o3 和 o4-mini(无工具版本)的准确率分别高达 91.6% 和 93.4%,远超前代模型 o1 的 74.3%。在 2025 年的题目中,它们的准确率也分别达到了 88.9% 和 92.7%。此外,在 Codeforces 编程竞赛评分中,支持终端工具的 o3 和 o4-mini 分别取得了 2706 和 2719 的 ELO 分数,同样显著领先于 o1 和 o3-mini。这些数据充分证明了 o3 和 o4-mini 在逻辑推理、问题解决和编码能力方面的巨大进步。值得注意的是,模型在数学和编程竞赛中的优异表现,暗示着其在科学研究、软件开发等领域的潜在应用价值。
为了让更多用户体验到这两款强大模型的能力,OpenAI 宣布,ChatGPT 的 Plus、Pro 会员以及 Team 用户将可以直接使用 o3、o4-mini 以及更高版本的 o4-mini-high。这表明 OpenAI 正在积极推动其 AI 技术的普及,并希望通过用户反馈不断提升模型的性能和应用范围。可以预见,随着 o3 和 o4-mini 的广泛应用,AI 将在各个领域发挥越来越重要的作用。
