AI语音交互正在经历一场”降维式”进化。最近,大量用户在ChatGPT网页版和App中发现了一个名为”Bidi1″的新语音模型,这意味着OpenAI正在为更大规模的测试做准备,将AI语音交互带入前所未有的流畅体验。
长期以来,AI语音助手一直遵循”我问你答”的线性逻辑,用户必须等待AI把上一句说完才能进行下一轮交互。而Bidi1语音模型的出现,彻底打破了这一桎梏。它的核心亮点是”双向并行处理”:AI不仅能一边说话一边实时听取用户输入,还能在对话过程中立即响应用户的打断或新指令。

这种交互模式极大地拉近了人机对话与真实人类交流的距离。在一个演示案例中,当模型正在执行”从1数到10″的任务时,用户可以随时打断并要求它”倒着数”,模型能无缝切换到新指令。这种”边说边听、实时响应”的交互逻辑,彻底消除了以往那种僵硬的等待期,让对话变得极度自然、丝滑。
从客观技术角度看,Bidi1能够在对话中维持上下文连贯性的同时,正确处理”打断”和”切换”这两大高难度场景,其背后的多模态并行处理能力不容小觑。相比此前Siri、小爱同学等传统方案,这种近乎人类对话节奏的交互方式,可能预示着下一阶段语音助手的标配能力。
在界面操作上,Bidi1有着很高的辨识度。当用户在模型选择器设置中勾选该选项后,原本的语音气泡会变成醒目的黄色,提示用户已切换至这一高级语音模式。
尽管OpenAI尚未大规模正式发布这一功能,但从目前的测试反馈来看,该功能的推出已经临近。这一轮ChatGPT的升级,不仅提升了语音交互的效率,更在人机协同的沉浸感上迈出了重要一步。对于习惯通过语音处理任务的用户而言,一个更聪明、更懂打断、响应更快的助手,即将触手可及。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。