


OpenAI于近期“12 Days of OpenAI”活动中重磅发布了其o3系列大模型,引发业界广泛关注。官方宣称,o3在部分应用场景下的推理能力已接近通用人工智能(AGI)水平,这一说法无疑令人振奋,但也引发了对其安全性和潜在风险的讨论。
o3的命名源于避免与英国电信运营商O2商标冲突,OpenAI首席执行官山姆·阿尔特曼在直播中对此进行了解释。这一选择体现了OpenAI在商业运营中的谨慎和专业态度。
o3作为o1推理模型的升级版,推出完整版和精简版(o3-mini)两个版本,以满足不同用户的需求。o3-mini已率先开放给安全研究人员进行测试,OpenAI采取这一策略,旨在确保模型的安全性,并为后续全面开放打下坚实的基础。公众可通过OpenAI官方网站申请参与安全测试。据阿尔特曼透露,o3-mini预计将于2025年1月底发布,完整版o3将会随后推出。
o3的一大特色是其内置的事实核查功能,这能有效降低模型输出错误信息的概率。但这项功能也可能导致一定的响应延迟,从几秒到几分钟不等,具体取决于推理的复杂程度。此外,o3采用“私人思想链”机制,在回复前会进行暂停思考,以确保输出结果的准确性。
为了提升用户体验,o3提供低、中、高三种计算级别供用户选择,计算级别越高,模型的性能越好。在ARC-AGI基准测试中,o3在高计算设置下得分高达87.5%,低计算设置下也达到75.7%,性能是o1的三倍。此外,o3在SWE-Bench Verified编程任务、Codeforces编程技能测试、2024年美国数学邀请赛以及GPQA Diamond研究生水平科学测试中均取得了显著成绩,充分展现了其强大的能力。
o3的出色表现为其在AGI领域的进一步发展奠定了基础,但也带来了新的挑战。高性能同时也意味着潜在风险的增加。OpenAI承诺将与其他机构合作,致力于提高模型安全性并完善基准测试体系,以确保o3在安全可控的范围内发挥最大效用。 这也体现了大型语言模型发展中,安全性和性能提升并重的重要性。
最后,o3的发布对OpenAI与微软的合作关系也可能产生深远影响。根据双方协议,如果OpenAI达到AGI水平,则不再需要向微软提供其最先进技术。因此,o3的成功,标志着OpenAI在AI领域取得了重大突破,也预示着其与微软合作关系的未来走向将发生改变,值得持续关注。