【AI快讯网资讯】7月31日消息,OpenAI于当地时间30日宣布,从即日起,GPT-4o的语音模式(注:Alpha版本)将对部分ChatGPT Plus用户开放。OpenAI计划于今年秋季将该功能逐步推广至所有ChatGPT Plus订阅用户。
据AI快讯网了解,OpenAI首席技术官米拉・穆拉蒂(Mira Murati)在早前的演讲中阐述了GPT-4o的技术特点。她指出,GPT-4o是一个全新的跨文本、视觉和音频的端到端统一模型,其特色在于所有的输入与输出都由单一的神经网络负责处理。这是OpenAI首个融合多种模式的模型,因此在功能和局限性的探索上,他们还处于初步阶段。
原计划于今年6月底邀请小部分ChatGPT Plus用户测试GPT-4o语音模式的OpenAI,因需要更多时间来完善模型并提升其特定内容的检测和拒绝能力,故官方在6月宣布了测试推迟的消息。

早期信息显示,相较于GPT-3.5模型2.8秒的平均语音反馈延迟,GPT-4的5.4秒延迟在语音交互上显得不足。然而,新一代的GPT-4o预计将大幅降低这一延迟,实现更为流畅的对话体验。
GPT-4o语音模式的亮点在于其迅速的反应速度和高度逼真的声音。OpenAI更是声称,该模式能够感知语音中的情感语调,包括悲伤、兴奋甚至是歌唱。
为了确保语音交互的真实性和安全性,OpenAI发言人林赛・麦卡勒姆(Lindsay McCallum)明确表示:“ChatGPT不会冒充他人的声音,无论是个人还是公众人物,且系统会阻止与预设声音不符的输出。”
GPT-4o语音模式的发布标志着人工智能在语音交互领域的重大进展。未来,随着技术的不断发展和完善,我们可以期待更加智能、自然和人性化的语音交互体验。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。