在人工智能浪潮的推动下,语音交互技术正迎来前所未有的发展机遇。作为国内人工智能领域的领军企业,百度再次走在了技术创新的前沿。近日,百度正式发布了业界首个基于全新互相关注意力(Cross-Attention)机制的端到端语音语言大模型,并率先将其应用于旗下产品文小言,为用户提供免费体验的机会。

此次文小言的升级,主要体现在“超逼真语音交互、超低时延响应、超低成本应用”三大核心优势。与以往的语音交互系统相比,新模型不仅能更准确地识别并处理包括重庆、广西、河南、广东、山东等多种地方方言,还能在对话过程中融入细腻的情感表达,从而显著提升交互的自然度和流畅性。此外,响应速度的大幅提升也是本次升级的亮点之一。文小言将用户平均等待时间从行业内普遍的3-5秒缩短至约1秒,几乎实现了与真人实时对话的无缝体验。而更值得关注的是,该模型在电话语音频道的问答场景中,调用成本相较于行业平均水平降低了50%-90%,这无疑为大规模应用奠定了坚实的基础。
百度语音首席架构师透露,这款语音语言大模型可以部署在L20 GPU卡上,并且在保证语音交互所需的低延迟前提下,单台配备双L20卡的服务器,其并发处理能力可达到数百路甚至更高。在模型训练方面,借助强大的文心大模型作为基础,仅需数百张GPU卡进行一周左右的优化训练即可完成,且整个优化训练流程相对简单高效。这种低门槛的训练方式,无疑将大大加速模型的普及和应用。
文小言的功能也得到了极大的丰富,目前已集成包括天气查询、日历查询、单位换算、股票股价查询等38个垂类助手,使用者无需切换应用即可获得所需信息。无论是最新的时事新闻、百科知识,还是日常的常识问题,文小言都能迅速且准确地给出答案。更重要的是,文小言具备与用户进行情感互动的能力,能够根据用户的语气和反馈,做出相应的反应,从而实现更为逼真和拟人的交互体验。
在实际的应用场景中,文小言展现出其强大的方言识别能力和流畅的多轮交互能力。例如,即使在通话过程中小朋友多次插话打断,文小言也能迅速理解对方的需求,并以充满关怀的语气作出回应,营造出自然、温馨的对话氛围。又例如,当用户表达心情不佳时,文小言的语音语调中能够流露出担忧,并通过引导提问的方式,帮助用户倾诉并进行开导,充分展现了其作为情感陪伴者的潜力。

百度此次推出的端到端语音语言大模型,在技术层面实现了诸多突破。作为业界首个基于Cross-Attention跨模态的语音语言大模型,它有效地将Encoder与语音识别功能相结合,从而将KV计算效率提升了近十倍。同时,Encoder与语音合成技术的融合,使得输出内容能够根据语境实现情感控制。此外,百度还自主研发了高效的全查询注意力EALLQA技术,进一步降低了KV cache的使用量,有效降低了硬件资源的需求。
模型训练方面,百度采用了自蒸馏的方式进行post-train训练,以成熟的文心语言预训练模型为基础,成功训练出了Cross-Attention端到端语音语言大模型。这项创新性的跨模态建模技术,实现了语音识别与大语言模型的深度融合,为语音交互领域带来了颠覆性的变革。这种深度融合不仅提高了模型的整体性能,也为未来语音交互技术的发展指明了方向。

在成本控制方面,该模型实现了低成本的训练和高速推理。通过流式逐字的LLM驱动的多情感语音合成技术,模型能够快速响应并提供富有情感的反馈。这项技术的应用,极大地提升了语音交互场景的应用潜力,为大规模工业化应用提供了可能。更低的成本意味着更广泛的应用,这无疑将加速语音交互技术在各行各业的普及。
百度在语音识别领域长期深耕,积累了深厚的技术底蕴,为本次技术创新奠定了坚实的基础。从Deep Peak 2模型到流式多级的截断注意力模型SMLTA,再到基于历史信息抽象的流式截断conformer建模技术SMLTA2,百度持续突破技术瓶颈,引领着语音识别技术的快速发展。此次端到端语音语言大模型的推出,更是将百度在语音交互领域的技术优势发挥到了极致,进一步巩固了其在该领域的领先地位。

为了加速语音语言模型的规模化应用,百度已经将该模型上线至文小言并免费开放。未来,该模型还将逐步接入呼叫中心、智能音箱等业务,为更多用户提供高效便捷的语音交互体验。百度表示,将继续秉承开放创新的理念,持续开放技术创新成果,推动大语言模型在语音领域的应用,从而促进整个行业和生态的蓬勃发展。