历经多年等待,GPT-5 终于在这个凌晨正式发布。

直播开始时,观众们满怀着期待,而 OpenAI 的核心团队成员则显得有些紧张。这种紧张也情有可原——毕竟 GPT-5 携带着众多新技术和功能,是 OpenAI 长期努力的结晶。
直播过程中,奥特曼(Sam Altman)频繁更新推特,介绍了 GPT-5 的多个亮点。我们以他的推特内容为主线,为大家逐一解析 GPT-5 的主要特点。
一体化智能系统
GPT-5 是一个集成模型,用户无需在不同的子模型之间切换,模型本身能够根据任务的需求自动选择合适的处理方式。GPT-5 包含三个模型:高效应答模型、深度推理模型(GPT-5 Thinking 模式),以及根据对话类型、问题复杂度和工具需求自动选择最佳处理模型的实时路由系统。这一设计简化了用户的操作流程,提高了模型的灵活性和适应能力。
奥特曼特别提到了 GPT-5 的实时路由器,这个系统通过分析用户的行为、偏好和反馈数据,不断优化其路由策略。当某一个模型的使用量接近上限时,更轻量化的版本会自动接管后续的任务,确保服务连续性和稳定性。

此外,GPT-5 在基准测试中表现出色,响应速度更快,尤其是在处理现实生活中的多样化需求时。OpenAI 表示,GPT-5 在降低幻觉生成、提高指令遵循精度和减少迎合性回答等方面取得了显著进展,这使其在文本创作、编程开发和健康咨询等常用场景中表现更加出色。
性能评估
接下来,我们看看 GPT-5 在各个基准测试中的具体成绩。
尽管奥特曼强调基准测试的成绩并不是最重要的指标,但他们还是公布了一系列令人瞩目的跑分结果。以下是几个主要领域的表现:
- 数学领域:在 2025 年 AIME 测试中,无工具辅助条件下,GPT-5 达到了 94.6% 的准确率。
- 真实编程应用:在 SWE-bench Verified 测试中,GPT-5 的得分为 74.9%;而在 Aider Polyglot 测试中,得分为 88%。
- 多模态理解:在 MMMU 测试中,GPT-5 达到了 84.2% 的准确率。
- 健康领域:在 HealthBench Hard 测试中,GPT-5 达到了 46.2% 的准确率。
通过 GPT-5 Pro 的扩展推理能力,该模型在 GPQA 测试中以 88.4% 的成绩(无工具辅助)创下了新的最佳纪录。

需要注意的是,这些测试结果是在“高推理强度”设置下得出的,这通常代表了用户在使用模型时可能体验到的最佳性能。
编码基准
GPT-5 在编程任务中的表现尤为突出。它不仅能够快速生成高质量的代码,还能理解和执行复杂的任务。例如,它可以在几分钟内创建一个法语学习网页,帮助用户练习发音、做题和玩游戏。

GPT-5 在指令遵循和智能工具调用方面也有了显著提升,使其能够更好地处理多步骤请求和跨工具操作。这种能力使其在动态变化的任务中表现更为可靠。


多模态基准
GPT-5 在多模态基准测试中同样表现优异,覆盖了视觉、视频、空间及科学推理等多个领域。增强的多模态能力使 ChatGPT 能够更精准地解析图像等非文本输入,无论是解读图表数据、总结演示文稿的照片,还是回答基于示意图的问题都能游刃有余。

健康基准
在健康咨询领域,GPT-5 也进行了专门的优化。直播中,一位癌症患者分享了她在使用 ChatGPT 解释病情方面的体验,进一步证明了 GPT-5 在医疗领域的实用价值。奥特曼表示,GPT-5 是目前最优秀的健康模型。

经济价值型任务表现
在 OpenAI 内部的复杂任务评估基准中,GPT-5 同样表现出色。该测试旨在评估模型在经济价值和知识型工作中的表现。结果显示,GPT-5 在启动推理功能时,约有一半的案例中表现达到或超过了人类专家的水平。同时,它在法律、物流、销售、工程等多个职业领域中,综合任务表现全面优于前代模型和 ChatGPT Agent。

为了支持这些高性能任务,GPT-5 是在微软 Azure AI 超级计算机上训练的,并且很快就上线到了微软的平台上。

更快、更高效的 Thinking 模式
GPT-5 能在更短的时间内产生更有价值的输出。数据显示,GPT-5 在视觉推理、智能体编程和研究生级科学问题解决等场景中,启用思考功能后的性能明显优于 OpenAI 的前代模型,同时输出 token 数量减少了 50-80%。这种效率的提升不仅意味着更高的生产力,也为用户节省了大量的资源。



为了应对最具挑战性的复杂任务,OpenAI 推出了 GPT-5 Pro,替代了前代的 o3-pro。GPT-5 Pro 具备长时间思考的能力,并能利用可扩展且高效的并行测试时间计算,提供最高质量的答案。
GPT-5 Pro 在多个极具挑战性的基准测试中取得了最高性能,特别是在包含极高难度的科学问题的 GPQA 测试中。
费用和版本
在费用方面,GPT-5 提供了三种使用计划:免费版、Plus 和 Pro。免费版用户也能享受到“博士级别的智能”,即具备推理功能的标准 GPT-5。Plus 计划的用户在使用频率上有所放宽,而 Pro 计划的用户则可以获得 GPT-5 Pro 的高级功能。
面向开发者,GPT-5 的 API 价格如下:标准版 GPT-5 为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元,mini 版和 Nano 版的价格则更低。

直播中的小插曲
尽管直播中 OpenAI 花了大量时间介绍 GPT-5 的优点,但仍然出现了一些技术和展示上的小问题。例如,直播中展示的一些跑分图被指出存在错误,奥特曼也坦诚地承认了这一点。

更尴尬的是,特斯拉 CEO 埃隆·马斯克在推特上转发了 GPT-5 在 ARC-AGI-2 基准测试中未能击败 Grok 4 的消息,这对 OpenAI 来说无疑是一次打击。

此外,有人对 GPT-5 在减少幻觉方面的 demo 提出了质疑,认为问题在于数据来源而非模型本身。这种批评也不无道理,数据的质量对于模型的表现至关重要。

总体来看,GPT-5 的表现确实令人印象深刻,但也有不少用户认为它并未完全达到他们的预期。特别是在面对其他竞争者的最新模型时,GPT-5 的优势并不像宣传的那样明显。


模型系统卡
最后,我们附上了 GPT-5 的模型系统卡,有兴趣的读者可以详细了解其技术细节。

链接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
值得一提的是,这张图展示了 GPT-5 系列模型与前几代 OpenAI 模型之间的关系,可以帮助读者更清晰地理解 GPT-5 的技术演进。

最后,你对 GPT-5 的表现满意吗?还是更期待其他竞争对手的新产品,比如 DeepSeek-R2?