奥特曼发布GPT-5，人人免费体验“博士级”智能，但基准图错误引发网民吐槽

历经多年等待，GPT-5 终于在这个凌晨正式发布。

直播开始时，观众们满怀着期待，而 OpenAI 的核心团队成员则显得有些紧张。这种紧张也情有可原——毕竟 GPT-5 携带着众多新技术和功能，是 OpenAI 长期努力的结晶。

直播过程中，奥特曼（Sam Altman）频繁更新推特，介绍了 GPT-5 的多个亮点。我们以他的推特内容为主线，为大家逐一解析 GPT-5 的主要特点。

一体化智能系统

GPT-5 是一个集成模型，用户无需在不同的子模型之间切换，模型本身能够根据任务的需求自动选择合适的处理方式。GPT-5 包含三个模型：高效应答模型、深度推理模型（GPT-5 Thinking 模式），以及根据对话类型、问题复杂度和工具需求自动选择最佳处理模型的实时路由系统。这一设计简化了用户的操作流程，提高了模型的灵活性和适应能力。

奥特曼特别提到了 GPT-5 的实时路由器，这个系统通过分析用户的行为、偏好和反馈数据，不断优化其路由策略。当某一个模型的使用量接近上限时，更轻量化的版本会自动接管后续的任务，确保服务连续性和稳定性。

此外，GPT-5 在基准测试中表现出色，响应速度更快，尤其是在处理现实生活中的多样化需求时。OpenAI 表示，GPT-5 在降低幻觉生成、提高指令遵循精度和减少迎合性回答等方面取得了显著进展，这使其在文本创作、编程开发和健康咨询等常用场景中表现更加出色。

性能评估

接下来，我们看看 GPT-5 在各个基准测试中的具体成绩。

尽管奥特曼强调基准测试的成绩并不是最重要的指标，但他们还是公布了一系列令人瞩目的跑分结果。以下是几个主要领域的表现：

数学领域：在 2025 年 AIME 测试中，无工具辅助条件下，GPT-5 达到了 94.6% 的准确率。
真实编程应用：在 SWE-bench Verified 测试中，GPT-5 的得分为 74.9%；而在 Aider Polyglot 测试中，得分为 88%。
多模态理解：在 MMMU 测试中，GPT-5 达到了 84.2% 的准确率。
健康领域：在 HealthBench Hard 测试中，GPT-5 达到了 46.2% 的准确率。

通过 GPT-5 Pro 的扩展推理能力，该模型在 GPQA 测试中以 88.4% 的成绩（无工具辅助）创下了新的最佳纪录。

需要注意的是，这些测试结果是在“高推理强度”设置下得出的，这通常代表了用户在使用模型时可能体验到的最佳性能。

编码基准

GPT-5 在编程任务中的表现尤为突出。它不仅能够快速生成高质量的代码，还能理解和执行复杂的任务。例如，它可以在几分钟内创建一个法语学习网页，帮助用户练习发音、做题和玩游戏。

GPT-5 在指令遵循和智能工具调用方面也有了显著提升，使其能够更好地处理多步骤请求和跨工具操作。这种能力使其在动态变化的任务中表现更为可靠。

多模态基准

GPT-5 在多模态基准测试中同样表现优异，覆盖了视觉、视频、空间及科学推理等多个领域。增强的多模态能力使 ChatGPT 能够更精准地解析图像等非文本输入，无论是解读图表数据、总结演示文稿的照片，还是回答基于示意图的问题都能游刃有余。

健康基准

在健康咨询领域，GPT-5 也进行了专门的优化。直播中，一位癌症患者分享了她在使用 ChatGPT 解释病情方面的体验，进一步证明了 GPT-5 在医疗领域的实用价值。奥特曼表示，GPT-5 是目前最优秀的健康模型。

经济价值型任务表现

在 OpenAI 内部的复杂任务评估基准中，GPT-5 同样表现出色。该测试旨在评估模型在经济价值和知识型工作中的表现。结果显示，GPT-5 在启动推理功能时，约有一半的案例中表现达到或超过了人类专家的水平。同时，它在法律、物流、销售、工程等多个职业领域中，综合任务表现全面优于前代模型和 ChatGPT Agent。

为了支持这些高性能任务，GPT-5 是在微软 Azure AI 超级计算机上训练的，并且很快就上线到了微软的平台上。

更快、更高效的 Thinking 模式

GPT-5 能在更短的时间内产生更有价值的输出。数据显示，GPT-5 在视觉推理、智能体编程和研究生级科学问题解决等场景中，启用思考功能后的性能明显优于 OpenAI 的前代模型，同时输出 token 数量减少了 50-80%。这种效率的提升不仅意味着更高的生产力，也为用户节省了大量的资源。

为了应对最具挑战性的复杂任务，OpenAI 推出了 GPT-5 Pro，替代了前代的 o3-pro。GPT-5 Pro 具备长时间思考的能力，并能利用可扩展且高效的并行测试时间计算，提供最高质量的答案。

GPT-5 Pro 在多个极具挑战性的基准测试中取得了最高性能，特别是在包含极高难度的科学问题的 GPQA 测试中。

费用和版本

在费用方面，GPT-5 提供了三种使用计划：免费版、Plus 和 Pro。免费版用户也能享受到“博士级别的智能”，即具备推理功能的标准 GPT-5。Plus 计划的用户在使用频率上有所放宽，而 Pro 计划的用户则可以获得 GPT-5 Pro 的高级功能。

面向开发者，GPT-5 的 API 价格如下：标准版 GPT-5 为每百万输入 Token 1.25 美元，每百万输出 Token 10 美元，mini 版和 Nano 版的价格则更低。

直播中的小插曲

尽管直播中 OpenAI 花了大量时间介绍 GPT-5 的优点，但仍然出现了一些技术和展示上的小问题。例如，直播中展示的一些跑分图被指出存在错误，奥特曼也坦诚地承认了这一点。

更尴尬的是，特斯拉 CEO 埃隆·马斯克在推特上转发了 GPT-5 在 ARC-AGI-2 基准测试中未能击败 Grok 4 的消息，这对 OpenAI 来说无疑是一次打击。

此外，有人对 GPT-5 在减少幻觉方面的 demo 提出了质疑，认为问题在于数据来源而非模型本身。这种批评也不无道理，数据的质量对于模型的表现至关重要。

总体来看，GPT-5 的表现确实令人印象深刻，但也有不少用户认为它并未完全达到他们的预期。特别是在面对其他竞争者的最新模型时，GPT-5 的优势并不像宣传的那样明显。

模型系统卡

最后，我们附上了 GPT-5 的模型系统卡，有兴趣的读者可以详细了解其技术细节。

链接：https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

值得一提的是，这张图展示了 GPT-5 系列模型与前几代 OpenAI 模型之间的关系，可以帮助读者更清晰地理解 GPT-5 的技术演进。

最后，你对 GPT-5 的表现满意吗？还是更期待其他竞争对手的新产品，比如 DeepSeek-R2？

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。