Rain科技5月8日消息,据媒体报道,OpenAI正式宣布对其实时API接口进行重大升级,一次性推出三款全新高阶语音智能模型,全面强化AI在实时听觉、口语交互、翻译与转录方面的能力,并大幅降低企业开发智能语音应用的技术门槛。
本次更新的核心产品包括:GPT-Realtime‑2、实时翻译模型以及实时转写模型。其中,GPT-Realtime‑2搭载了GPT‑5级别的推理能力,人声仿真度进一步提升。
相比前代产品,它能够更精准地理解并处理复杂的人类指令,实现更自然、更智能的连续对话交互。
在翻译方面,GPT-Realtime‑Translate支持超过70种语言的识别以及13种语言的语音输出,能够同步人声语速完成实时翻译,实现无卡顿的跨语言沟通。
配套上线的Whisper实时转录模型,可在人机互动过程中同步完成语音转文字,适用于会议记录、实时笔录等高频办公场景。
从行业视角看,OpenAI此次将实时API从单一对话能力扩展为集聆听、思考、翻译、转写与响应于一体的综合系统,实质上是在重新定义AI语音交互的标准。企业开发者过去需要分别集成ASR、NLP和TTS等多个模块,如今通过单一接口即可调用完整链条,显著降低开发复杂度和部署成本。此外,GPT-Realtime‑2基于GPT‑5的推理能力意味着模型能处理更复杂的上下文逻辑,例如在多轮对话中自动保持角色一致性,或在嘈杂环境中优先识别关键指令。这一升级对客服、教育、医疗等需要高保真语音交互的行业尤为关键。
OpenAI表示,本次升级将AI音频交互从基础问答提升为综合性智能语音操作系统,集聆听、思考、翻译、转写与实时响应于一体,实用性大幅增强。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
