OpenAI双向语音模型：通话中断秒回，自然流畅

Rain科技3月7日消息，据媒体报道，OpenAI正在研发一种全新的语音模型，旨在让用户与ChatGPT的对话更加自然流畅。这项技术的核心突破在于，当用户在AI说话过程中打断系统时，AI能够实时调整回应，而不是像现在这样突然停止。

目前ChatGPT的高级语音模式采用的是回合式对话机制，用户必须先说完话，AI才会处理语音并生成回答。如果用户在AI发言时插入”okay”或”mm-hm”等简短回应，系统通常会直接停止，无法像正常对话那样继续推进交流。这种“轮询式”的交互方式，虽然保证了AI输出的完整性，但在追求实时、自然交互的场景下显得不够灵活，容易打断用户的思考节奏。

为解决这一问题，OpenAI正在开发的BiDi（双向语音模型）能够持续处理说话者的语音输入，因此在被打断时可以立即调整回应。相比之下，现有的语音模型一旦开始生成回答，输出内容就基本固定，无法再根据新的输入进行变化。BiDi模型的关键在于其“实时响应”和“动态调整”能力，这将极大地提升语音交互的自然度，使其更接近人与人之间的实时对话体验。

这项技术目前仍处于开发阶段。据知情人士透露，原型模型在持续对话几分钟后容易出现故障，有时甚至会发出不自然的声音。OpenAI研究人员原本希望今年第一季度发布BiDi，但目前最新的发布时间可能推迟到第二季度或更晚。尽管面临技术挑战，但可以预见，一旦成熟，BiDi将成为下一代语音AI的重要基石，解决当前语音交互的痛点。

OpenAI认为，如果语音模型能够在性能上接近文本模型，AI的使用范围将进一步扩大，因为大多数人更习惯与AI进行语音交流，而不是输入文字。语音交互的普及，不仅在于其便捷性，更在于它能够降低技术门槛，让更广泛的用户群体能够轻松地利用AI技术，从而带来更广泛的社会和经济效益。BiDi模型在客服场景中可能尤其有价值。

例如，当顾客与零售商的AI客服通话时，如果顾客在对话过程中临时决定选择换货而非退货，BiDi模型理论上可以让AI客服顺畅调整对话，而不会突然停止或出现混乱。这种流畅的切换和智能的应变，将显著提升用户在服务场景中的满意度，减少不必要的误解和挫败感，为企业带来更高的服务效率和客户忠诚度。

知情人士还透露，BiDi模型在调用外部工具和应用方面也更灵活。OpenAI此前表示，公司计划为未来一款主要通过语音交互的AI设备改进语音模型，并考虑开发一款智能音箱，通过语音指令即可查看邮件或预订服务。这些举措表明，OpenAI正朝着构建一个更智能、更易用的语音AI生态系统迈进，BiDi技术将是实现这一愿景的关键一环，有望推动AI在家庭、办公等多元化场景中的深度应用。

文章内容举报

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

OpenAI双向语音模型：通话中断秒回，自然流畅

相关推荐

发表回复