百度语音大模型革新上线：对话超逼真，成本大降，1秒快答

在人工智能浪潮的推动下，语音交互技术正迎来前所未有的发展机遇。作为国内人工智能领域的领军企业，百度再次走在了技术创新的前沿。近日，百度正式发布了业界首个基于全新互相关注意力（Cross-Attention）机制的端到端语音语言大模型，并率先将其应用于旗下产品文小言，为用户提供免费体验的机会。

此次文小言的升级，主要体现在“超逼真语音交互、超低时延响应、超低成本应用”三大核心优势。与以往的语音交互系统相比，新模型不仅能更准确地识别并处理包括重庆、广西、河南、广东、山东等多种地方方言，还能在对话过程中融入细腻的情感表达，从而显著提升交互的自然度和流畅性。此外，响应速度的大幅提升也是本次升级的亮点之一。文小言将用户平均等待时间从行业内普遍的3-5秒缩短至约1秒，几乎实现了与真人实时对话的无缝体验。而更值得关注的是，该模型在电话语音频道的问答场景中，调用成本相较于行业平均水平降低了50%-90%，这无疑为大规模应用奠定了坚实的基础。

百度语音首席架构师透露，这款语音语言大模型可以部署在L20 GPU卡上，并且在保证语音交互所需的低延迟前提下，单台配备双L20卡的服务器，其并发处理能力可达到数百路甚至更高。在模型训练方面，借助强大的文心大模型作为基础，仅需数百张GPU卡进行一周左右的优化训练即可完成，且整个优化训练流程相对简单高效。这种低门槛的训练方式，无疑将大大加速模型的普及和应用。

文小言的功能也得到了极大的丰富，目前已集成包括天气查询、日历查询、单位换算、股票股价查询等38个垂类助手，使用者无需切换应用即可获得所需信息。无论是最新的时事新闻、百科知识，还是日常的常识问题，文小言都能迅速且准确地给出答案。更重要的是，文小言具备与用户进行情感互动的能力，能够根据用户的语气和反馈，做出相应的反应，从而实现更为逼真和拟人的交互体验。

在实际的应用场景中，文小言展现出其强大的方言识别能力和流畅的多轮交互能力。例如，即使在通话过程中小朋友多次插话打断，文小言也能迅速理解对方的需求，并以充满关怀的语气作出回应，营造出自然、温馨的对话氛围。又例如，当用户表达心情不佳时，文小言的语音语调中能够流露出担忧，并通过引导提问的方式，帮助用户倾诉并进行开导，充分展现了其作为情感陪伴者的潜力。

百度语音大模型革新上线：对话超逼真，成本大降，1秒快答

百度此次推出的端到端语音语言大模型，在技术层面实现了诸多突破。作为业界首个基于Cross-Attention跨模态的语音语言大模型，它有效地将Encoder与语音识别功能相结合，从而将KV计算效率提升了近十倍。同时，Encoder与语音合成技术的融合，使得输出内容能够根据语境实现情感控制。此外，百度还自主研发了高效的全查询注意力EALLQA技术，进一步降低了KV cache的使用量，有效降低了硬件资源的需求。

模型训练方面，百度采用了自蒸馏的方式进行post-train训练，以成熟的文心语言预训练模型为基础，成功训练出了Cross-Attention端到端语音语言大模型。这项创新性的跨模态建模技术，实现了语音识别与大语言模型的深度融合，为语音交互领域带来了颠覆性的变革。这种深度融合不仅提高了模型的整体性能，也为未来语音交互技术的发展指明了方向。

百度语音大模型革新上线：对话超逼真，成本大降，1秒快答

在成本控制方面，该模型实现了低成本的训练和高速推理。通过流式逐字的LLM驱动的多情感语音合成技术，模型能够快速响应并提供富有情感的反馈。这项技术的应用，极大地提升了语音交互场景的应用潜力，为大规模工业化应用提供了可能。更低的成本意味着更广泛的应用，这无疑将加速语音交互技术在各行各业的普及。

百度在语音识别领域长期深耕，积累了深厚的技术底蕴，为本次技术创新奠定了坚实的基础。从Deep Peak 2模型到流式多级的截断注意力模型SMLTA，再到基于历史信息抽象的流式截断conformer建模技术SMLTA2，百度持续突破技术瓶颈，引领着语音识别技术的快速发展。此次端到端语音语言大模型的推出，更是将百度在语音交互领域的技术优势发挥到了极致，进一步巩固了其在该领域的领先地位。

百度语音大模型革新上线：对话超逼真，成本大降，1秒快答

为了加速语音语言模型的规模化应用，百度已经将该模型上线至文小言并免费开放。未来，该模型还将逐步接入呼叫中心、智能音箱等业务，为更多用户提供高效便捷的语音交互体验。百度表示，将继续秉承开放创新的理念，持续开放技术创新成果，推动大语言模型在语音领域的应用，从而促进整个行业和生态的蓬勃发展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

百度语音大模型革新上线：对话超逼真，成本大降，1秒快答

相关推荐

发表回复