OpenAI首席执行官山姆·阿尔特曼 (Sam Altman) 近日宣布,公司计划在下周向 ChatGPT Plus 用户开放 GPT-4o 语音模式 (Voice Mode) 的 Alpha 版本。这一新功能的推出,将为用户提供更加流畅、自然的语音交互体验,提升用户使用 ChatGPT 的效率和满意度。
GPT-4o 是 OpenAI 最新推出的一款多模态人工智能模型,它能够处理文本、视觉和音频,并提供端到端的统一模型架构。这意味着所有输入和输出都将由同一个神经网络处理,从而大大提高了模型的处理效率和响应速度。OpenAI 首席技术官穆里·穆拉蒂 (Muri Murati) 早前曾表示, GPT-4o 是公司首个集成了所有这些模式的模型,因此 OpenAI 仍在探索其功能和局限性。

GPT-4o 语音模式原本计划于 6 月底向一小部分 ChatGPT Plus 用户开放测试,但由于需要进一步提高模型的内容检测和拒绝能力,该计划被推迟。现在,阿尔特曼的声明意味着这一创新功能即将与公众见面。
公开信息显示,与 GPT-3.5 模型平均 2.8 秒的语音反馈延迟和 GPT-4 模型 5.4 秒的延迟相比,GPT-4o 有望显著缩短延迟时间,实现更加流畅自然的语音交流,几乎达到无缝对话的效果。这将为用户带来全新的交互体验,同时展示了 OpenAI 在人工智能领域的持续创新和领先地位。GPT-4o 语音模式的推出,将进一步推动人工智能技术在自然语言处理领域的应用,并有可能改变人们与人工智能交互的方式。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。