讯飞新交互大模型：数字人语音视觉融合，智能体验升级

科大讯飞开放平台今日重磅发布讯飞星火多模态交互大模型，标志着其在人工智能交互领域取得重大突破。该模型实现了从单一语音交互向音视频流实时多模态交互的飞跃，为用户带来更自然、更丰富的交互体验，显著提升了人机交互的沉浸感和实用性。

讯飞星火多模态大模型的核心创新在于其引入了“超拟人数字人”技术。该技术使得数字人的肢体动作、表情与语音内容精准同步，极大增强了AI形象的逼真度和情感表达能力。通过统一处理文本、语音和表情信息，该模型在跨模态语义一致性方面取得显著进展，情感表达更自然流畅，有效弥合了虚拟与现实之间的差距。这相比以往的AI交互，在情感表达的真实性和连贯性上有了质的飞跃。

在交互速度方面，讯飞星火凭借其统一的神经网络架构，实现了语音到语音的端到端建模，显著提升了响应速度和流畅度，确保了用户体验的丝滑流畅。此外，该模型具备敏锐的情绪感知能力，能够根据用户指令和情感变化，灵活调整声音的节奏、音调和人物设定，提供更个性化的交互服务，真正做到以用户为中心。

除语音交互外，讯飞星火还支持强大的多模态视觉交互功能。它不仅能够“听懂”，更能“看懂”，能够精准识别并理解具体的背景场景、物体信息（例如识别孙悟空和奥特曼、面霜品牌和功效、花卉种类等），并结合语音、手势、行为和情绪等多种信息，进行更精准、更全面的任务理解和响应。此功能的加入，大幅增强了模型的环境感知能力和交互的智能化程度。

据报道，用户已可体验与讯飞星火数字人进行自然流畅的语音和视频通话，数字人表情与语音内容完美匹配。这种多模态交互能力的提升，预示着未来人机交互将朝着更自然、更智能、更拟人的方向发展，为各行各业带来无限可能。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

讯飞新交互大模型：数字人语音视觉融合，智能体验升级

相关推荐

发表回复