在深度学习模型不断迭代的当下,多模态能力的突破无疑是技术前沿最值得关注的焦点之一。近日,阿里达摩院在这一领域再次放出重磅消息,其旗下大语言模型系列「通义」迎来了重大的版本升级,预示着AI在理解与生成内容方面将迈入一个全新阶段。
12月2日,Qwen APP 正式集成了「通义万相」系列的最新模型——万相 2.5。此次升级不仅在原有基础上进一步强化了视频创作的能力,更在核心技术上实现了跨越式突破。用户将能体验到更精准的动作协调和更逼真的人体表现,尤其值得注意的是,这是行业内首个支持音视频同步输出的移动端AI助手,这意味着AI生成的视频内容将更加自然、生动,具备了接近真实场景的沉浸感。
阿里「通义万相」2.5 模型是目前行业内屈指可数的能够实现音视频同步生成的视频模型之一。它强大的多任务处理能力,能够同时胜任理解与生成两类复杂任务,并能灵活处理文本、图像、视频,乃至音频等多种模态的信息。在业界权威的大模型评测平台 LMArena 上,「通义万相」在图像生成视频(Image-to-Video)方面的能力,位列全球第三,国内第一,这样的成绩足以证明其在多模态生成领域的领先地位。
在 Qwen APP 的实际应用中,万相 2.5 的集成极大地降低了视频创作的门槛。用户只需提供一张静态的照片和一段简单的文字描述,无需任何复杂的模板操作,即可生成一条高清 1080P 的舞蹈视频。更难能可贵的是,生成的视频在身体动作的自然度和唇部同步的精准度上都表现出色,最长可支持10秒的视频时长。据测试,无论用户的原始素材是真人照片、可爱的宠物、二次元的动漫角色,甚至是跨次元的文化遗物或经典的卡通人物,万相 2.5 都能将其赋予生命,进行动画演绎。

回顾去年,阿里首次推出的“照片跳舞”功能,便以其惊艳的效果迅速引爆全网,激发了无数网友的创造力。从兵马俑卖家秀到萌宠的魔性尬舞,再到动漫角色的活力四射,一张张静态照片在AI的加持下,瞬间释放出巨大的生命力。此次万相 2.5 的上线,不仅是将视频创作的质量推向了新的高度,更是显著降低了技术壁垒。用户只需上传自己的照片,输入一段简单的文字指令,例如“一只猫在又唱又跳”,Qwen APP 就能精确捕捉指令,并生成一段活灵活现的视频,让静态图像瞬间“活”过来。这是一个对想象力的极致解放。
此番能力进化,再次点燃了用户群体的创作热情。社交平台上,涌现出大量更具创意的“照片跳舞”内容。举个例子,用户可以先利用 Qwen APP 将两张原始图片融合,生成一张具有中世纪绘画风格的合成图。接着,再输入“图中人物载歌载舞,并配以动感的镜头调度”这样的文字指令。最终,AI不仅能实现群体歌舞的动态效果,还能在保持主体高度一致性的同时,呈现出极具艺术感的视觉表现。
值得关注的是,在公开测试阶段,Qwen App 就展现出了惊人的增长势头。在短短一周内,其下载量便已突破千万级别,这一速度前所未有,甚至超越了 ChatGPT、Sora、DeepSeek 等一众知名前沿AI应用,堪称AI应用史上的“现象级”增长。