小言焕新升级：一键生成吉卜力风，语音大模型与图片问答亮点多多

在一年一度的百度AI开发者大会（Baidu AI DAY）上，“文小言”迎来了其品牌与功能的一次重大升级。此次升级的亮点不仅在于底层技术，更在于其对用户体验的全面提升。文小言此次不仅集成了百度自研的文心大模型X1和文心4.5，还开放性地融合了满血版DeepSeek-R1、以及具有视频生成能力的“可灵”等第三方模型，实现了AI能力的多样化与协同化。

本次升级的另一大亮点是文小言推出的一系列创新功能，包括全新的语音大模型、图片问答、AI生成图片与视频等。值得一提的是，用户现在可以选择“自动模式”，系统将智能选择最优的模型组合来处理任务，降低了用户理解和选择模型的门槛。当然，对于有特定需求的用户，文小言依然保留了手动选择单一模型（如DeepSeek或文心大模型）的选项，满足了不同用户的个性化需求。这种兼顾易用性和灵活性的设计，体现了文小言在用户体验上的精益求精。

百度AI产品创新业务负责人薛苏在大会上强调，AI的竞争已经不再是单纯的技术参数的堆砌，而是转向如何通过多模型的协同工作，真正为用户创造价值。文小言的目标是打造一个开放的AI生态，整合顶尖的模型能力，从而推出更强大、更易用的AI产品。这种开放合作的姿态，有助于文小言快速吸纳行业领先的技术成果，保持其在AI领域的竞争力。

从实际应用来看，文小言已经展现出了不俗的实力。例如，当用户希望使用文心大模型X1设计一款吉卜力风格的帆布包时，文小言能够精准捕捉吉卜力风格的特点，并迅速调用AI绘图工具，生成帆布包的正反面效果图。而文心4.5的多模态分析能力，则可以准确识别照片中的地理位置、背景建筑等城市特征，这为用户在图片识别、城市探索等方面提供了便利。

吉卜力风格帆布包设计效果图

布鲁克林大桥照片识别效果

除了图像处理能力外，文小言在语音交互方面也有着显著的提升。用户可以在拍摄过程中直接进行语音提问，文小言能够自动拍摄并识别语音，给出相应的答案。此外，基于已有的图片，文小言还能进行一键二次创作，例如，上传一张水杯的照片，即可生成同款抱枕和鼠标垫的设计方案。虽然在处理过于复杂的图像元素时，仍可能出现文字拼写错误或主体不一致等问题，但整体来看，文小言的AI创作能力已经相当可观。

语音提问与自动拍摄回答示例

基于原图的一键二次创作示例

值得一提的是，文小言还整合了百度的拍照搜题功能。用户只需在拍摄界面选择“解题老师”，即可自动调用百度教育长期积累的庞大题库资源，很多题目还配备了视频版数字人讲解，极大地提升了学习效率。此外，文小言还支持重庆、广西、河南、广东、山东等多种地方方言对话，并能切换多种音色，如蜡笔小新、孙悟空、熊大熊二等，不仅能处理复杂的知识问答，还能在角色扮演等场景中提供更丰富的互动体验。

方言对话与音色切换示例

据百度语音首席架构师贾磊介绍，文小言此次推出的语音大模型是业界首个基于全新互相关注意力机制的端到端语音语言大模型。该模型不仅调用成本比行业平均水平降低了50%-90%，而且推理响应速度极快，将用户等待时长缩短至约1秒。虽然目前文小言暂不支持图生图功能，但已经融合了文生图、AI修图、AI视频生成以及“图个冷知识”等科普解读向的新功能，进一步丰富了其应用场景。

在商业模式方面，薛苏表示，文小言目前将全面拥抱免费策略，专注于提升用户体验。她认为，过早进行商业化探索可能会对产品造成损害，因此，在用户基础尚未稳固的情况下，提升用户体验才是首要任务。这种以用户为中心的策略，有助于文小言在激烈的市场竞争中赢得用户的青睐，为未来的商业化打下坚实的基础。当前，AI产品的商业化路径仍在探索中，免费策略或能帮助文小言快速积累用户，并通过庞大的用户数据反哺模型优化，形成良性循环。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

小言焕新升级：一键生成吉卜力风，语音大模型与图片问答亮点多多

关于作者

AI快讯网编辑-青青

发表回复