在近日举行的百度AI DAY活动上,百度旗下AI产品文小言迎来了全面焕新升级。本次升级的关键在于其核心能力的提升:不仅整合了百度自研的文心大模型X1和4.5,还开放性地引入了DeepSeek-R1(满血版)、可灵等第三方模型,构建了一个多模型融合调度的智能平台。
这种多模型的融合,旨在解决AI应用中长期存在的“一刀切”问题。过去,用户往往需要在不同的AI模型之间手动切换,以应对不同的任务需求。现在,文小言推出了“自动模式”,用户只需一键操作,即可由系统智能选择并调用最优的模型组合,极大地简化了操作流程,提升了用户体验。当然,对于有特定模型偏好的用户,仍然可以选择直接使用DeepSeek或文心大模型来完成特定任务,保留了高度的灵活性。
百度AI产品创新业务负责人薛苏强调,AI的未来发展方向不仅仅在于技术参数的竞争,更重要的是如何通过多模型的协同工作,真正为用户创造价值。文小言此次升级正是基于这一理念,通过构建开放生态,整合顶尖的模型能力,力求打造一个更加强大、更加简洁、更加易用的AI产品。
那么,升级后的文小言在实际应用中表现如何呢?
首先,在图像生成方面,文小言展现出了强大的能力。例如,使用文心大模型X1可以快速设计出吉卜力风格的帆布包。它能够精准地把握吉卜力动画的艺术风格,并连续调用AI绘图工具,迅速生成帆布包的正反面效果图,为设计师提供了极大的便利。
此外,文心4.5的多模态分析能力同样不容小觑。它能够精准地识别照片中的地理位置、背景建筑等详细信息,为用户提供更丰富的场景理解和应用场景。
文小言还具备便捷的语音交互功能。用户可以在拍摄过程中,直接使用语音进行提问,文小言会自动拍摄并识别语音进行回答。更值得一提的是,它还支持多种方言对话和音色切换,极大地增强了产品的趣味性和用户粘性。这种语音交互方式,在一定程度上摆脱了传统键盘输入的束缚,让用户能够以更自然的方式与AI进行互动。
除了传统的图片问答功能外,文小言还支持基于原图进行一键二次创作。用户只需上传一张图片,文小言就能调用图片理解和AI绘图工具,自动设计出同款的衍生品。然而,通过实际测试发现,当原图元素过于复杂时,可能会出现文字拼写错误或主体不一致的问题。这表明,在处理复杂图像时,文小言的算法还有待进一步优化。
文小言还整合了拍照搜题功能。用户只需在拍照界面选择“解题老师”,文小言就会自动调用百度教育积累的丰富资源,为用户提供详细的解题步骤。更进一步的是,许多题目还配有视频版数字人讲解,为用户提供了更加直观和生动的学习体验。这对于学生群体来说,无疑是一个强大的学习辅助工具。
在对话延迟方面,文小言同样有了显著提升。这得益于百度全新的语音大模型,该模型基于互相关注意力机制,实现了端到端的语音语言处理。与行业平均水平相比,该模型的调用成本降低了50%-90%,推理响应速度极快,用户等待时长从常见的3-5秒缩短至1秒左右。更低的成本和更快的速度,无疑将极大地提升用户的使用意愿和满意度。
值得注意的是,尽管目前文小言暂不支持图生图功能,但它已经融合了文生图、AI修图、AI视频生成等多种创新玩法,为用户提供了更加丰富的创作体验。最后,薛苏表示,目前文小言将全面拥抱免费策略,专注于提升用户体验,为未来的商业化探索打下坚实的基础。这一策略,无疑将有助于文小言在市场中快速积累用户,并为未来的商业化模式探索提供更多可能性。