字节跳动旗下的AI应用豆包,在今年迎来了一系列重大功能升级,尤其是在交互能力方面,表现抢眼。从春节期间上线的实时语音通话,到5月份新增的视频通话功能,豆包正逐步实现与用户之间更加自然、流畅的多模态互动,力求打造更接近于真人的交流体验。
不妨设想这样一个情景:你通过视频通话功能,随意将镜头对准一面陌生的欧洲小国国旗,豆包就能迅速结合音视频信息,准确无误地给出答案。在整个通话过程中,你可以随时停顿、思考,甚至变换话题,豆包都能精准捕捉用户意图并适时响应;当你需要打断它提出新的要求时,它也能即刻做出反应。这种高度的实时性和智能理解能力,让用户仿佛在与一位博学的朋友进行交流。
即使在网络环境复杂的场景下,例如地铁站、电梯或地下车库,豆包的实时交互能力也未受到显著影响。它依然能够保持稳定的响应速度,提供准确且清晰的回答。这背后,强大的火山引擎RTC(Real Time Communication,实时音视频)技术提供了坚实支撑。
RTC技术的核心在于其为低延迟互动而生的设计理念。它涵盖了音视频的采集、编解码、网络传输以及网络自适应等多个关键模块,旨在确保用户通过摄像头和麦克风采集的数据能够清晰、流畅地传输至接收端,同时保证用户能够实时接收到来自对方的音视频反馈。与传统的基于TCP协议的WebSocket方案相比,RTC技术采用UDP传输协议,允许在一定程度上牺牲数据包的完整性以换取更高的速度,从而实现了更低的延迟和更强的抗弱网络环境能力。这对于需要实时互动的AI应用来说至关重要,尤其是在移动网络复杂多变的当下。

火山引擎RTC技术自2017年起便开始潜心研发,最初的目标是满足抖音直播连麦等对实时性要求极高的应用场景的需求。随后,该技术在字节跳动内部的各类音视频通话、社交娱乐、游戏以及在线会议等场景中得到广泛应用和验证。随着生成式AI技术的蓬勃发展,RTC技术也迎来了新的发展机遇。2024年初,火山引擎推出了基于RTC的对话式AI技术方案,为豆包等AI产品的交互体验升级提供了关键的技术保障。
在豆包的对话式AI应用场景中,RTC技术不仅实现了低延迟、高质量和抗弱网的音视频交互体验,还针对人与机器交流的独特特点进行了针对性的升级和优化。例如,在视频处理层面,豆包需要深入分析帧间联系与时序信息,以确保语义的连续性,因此火山引擎对视频理解与关键帧提取算法进行了持续优化。在对话处理层面,则引入了智能语义判停与声纹降噪算法,使AI能够更精准地判断用户话语的完整性,并在嘈杂的环境中聚焦目标说话者,有效屏蔽环境噪声的干扰。这一系列优化,显著提升了豆包在复杂场景下的交互体验。
这些改进使得豆包在音视频通话中展现出更接近人类的特性,用户在与豆包进行对话时能够获得更加流畅、自然且贴近真实互动的体验。随着大型语言模型和AI应用的日益成熟,音视频已经逐渐成为新一代AI交互中不可或缺的重要组成部分。在虚拟陪伴、智能玩具、智能家居、智能教育等日益广阔的应用场景中,用户对于低延时、高质量、自然流畅的人机对话的需求也与日俱增。

火山引擎的RTC技术作为一项能够支撑复杂场景实时音视频交互的底层传输技术,正是保障这些用户体验的关键因素。它不仅成功应用于豆包,也为所有AI时代的产品提供了重要的技术价值。企业通过火山引擎接入RTC,即可使用与抖音、飞书同款的算法、架构和策略,这大大降低了企业自建集成方案的技术门槛,显著减少了在网络传输和音视频处理能力方面的投入,同时也降低了云服务资源消耗和深度音频算法调优的成本。 这种模块化解决方案,让企业可以更加专注于自身业务的创新,缩短产品开发周期。
此外,火山引擎还为开发者提供了每月10000分钟的免费额度,进一步降低了开发者在前期验证与迭代过程中的成本负担。开发者无需从零开始搭建一套复杂的架构,即可快速实现用户与AI之间的实时音视频互动,构建契合自身特定业务场景的AI实时对话能力。这一切都使得RTC技术成为对话式AI场景中的一种优选方案,使得企业能够以更低的成本、更快的速度落地语音和音视频能力,从而在激烈的市场竞争中赢得先机。