国庆假日期间,AI视频生成领域硝烟再起,各大玩家纷纷祭出重磅新品,预示着一场技术与产品的全面革新正在加速到来。OpenAI的Sora 2模型及其配套应用Sora App,以其“Cameo(角色引用)”功能上线首周下载量即力压ChatGPT的惊人表现,瞬间点燃了科技圈的讨论热潮。紧随其后,埃隆·马斯克旗下的xAI也迅速推出Imagine v0.9,主打20秒内生成视频且面向所有用户免费开放的普惠策略。而国内的AI视频创业公司生数科技,也在此节点宣布其Vidu Q2的“参考生”功能将于本月底正式登场,为这场激烈的技术竞赛增添了更多看点。
在这场你追我赶的技术竞赛中,“引用角色形象”已然成为AI视频生成领域最受瞩目的突破方向。无论是Sora App的Cameo功能,还是Vidu的参考生功能,都指向了同一个核心:通过允许用户上传参考图来生成视频,从而有效解决过往视频生成中常见的“情节断裂”和“角色行为失控”等难题。这一技术路径的演进,不仅极大地提升了视频生成的“可控性”,更是赋予了创作者前所未有的“自由度”。
作为全球最早提出“参考生视频”概念的践行者,生数科技早在2024年9月就已对Vidu的参考生功能进行了初步的落地。随着Sora App的正式上线,中美两国在AI视频技术与产品层面的正面较量,正式进入了白热化阶段。而Vidu Q2参考生视频功能的到来,不仅有助于大幅降低普通用户的参与门槛,更重要的是,它也能够精准满足专业创作者以及广告电商、影视动漫等To B市场在“一致性”、“精准性”和“性价比”方面提出的严苛要求。
当前,AI视频生成技术虽然飞速发展,但依然面临不少挑战。相较于文字或图像的生成,视频生成需要处理的是连续的时间线,如何在不断增加的时长内保持叙事的完整性,避免情节“断崖式”的跳跃和角色行为的“前后矛盾”,是模型必须跨越的鸿沟。模型的理解与记忆能力限制,以及普通用户在描述复杂场景时难以精确运用专业术语的痛点,都让视频生成的可控性问题显得尤为棘手。而“引用角色形象”这一技术思路,正是在这一背景下,被视为解决这些难题的有效路径。
在Sora App中,Cameo功能允许用户通过一段简短的视频和音频录制,将自己或授权他人的形象“注入”到生成的场景中,以此作为角色的参考。而Vidu的“参考生”功能则展现出更为强大的包容性,它能够覆盖到角色、环境、乃至道具等更广泛的要素,为创作者提供更高的自由度和更为细腻的控制力。举例来说,Vidu Q2支持上传多达7张的照片,这些照片可以是人物、物体、场景的任意组合,并且能够在高度保持参考图核心特征之余,更贴近用户的原始输入意图。
在实际的对比测试中,Vidu Q2的参考生功能展现出了其不俗的实力。以一段要求介绍皇冠的提示词为例,Sora 2最终生成的视频中,皇冠的样式发生了明显变化,甚至出现了空中漂浮这类与常理不符的画面。然而,在Vidu Q2生成的同一段视频里,主体人物始终牢牢握着皇冠,其形象、皇冠的样式以及麦克风的位置都保持了高度的一致性,甚至人物的眼神还能随着皇冠的移动而自然变化,极大地增强了画面的互动感。尽管Vidu Q2在此场景下并未生成音频,但其在主体一致性上的表现,无疑更加令人印象深刻。
在另一项对比测试中,提示词被设定为“女孩闭上眼睛,身后的云朵飞舞,发出金光”。Sora 2生成的人物面部特征,与参考图之间的差异显得尤为明显。相比之下,Vidu Q2在保持与参考图人物一致性方面,则做得更为出色。这些直观的对比案例表明,Vidu的参考生功能已经突破了仅限于单一角色引用的局限,成功实现了角色、道具、场景、特效等全要素的参考,并在主体一致性方面持续保持行业领先地位。
据了解,Vidu Q2模型的升级,标志着AI视频生成迈向了全新的阶段,其参考生功能在原有基础上实现了质的飞跃。新版本在视频一致性上的表现已达到全球领先水平,生成速度更快,价格也更具竞争力,并且对国内用户的友好度显著提升。内测体验结果则更为振奋人心,Vidu Q2在广告电商、知识科普、宠物拟人化剧情等多个细分场景中都表现出了卓越的性能,能够轻松应对镜头角度的切换、人物动作的复杂变化等需求,并且平均仅需十几秒即可完成一段5秒的视频片段生成。
以广告电商类的应用场景为例,Vidu Q2在实际测试中,成功复现了美妆博主眼角的亮片光泽、手中使用的美妆蛋以及身后卧室梳妆台的细节,并且在人物运动和镜头切换的过程中,画面变形的痕迹微乎其微。在知识科普类场景中,皮革的纹理、工具的摆放位置等关键细节均得到了精准保留,镜头切换也显得恰到好处。而在宠物拟人化剧情的测试中,无论是客厅的背景布置,还是猫咪佩戴的道具位置,乃至柯基的帽子细节,都与参考图保持高度一致,镜头运镜的表现也完全符合提示词的要求。这些鲜活的案例,充分印证了Vidu Q2参考生功能的实用性和创新潜力。
随着Vidu Q2参考生视频功能的正式发布日益临近,我们有理由相信,它将用一系列令人信服的实际表现,向世界证明中国在视频大模型领域的技术实力和落地价值。这场激烈的视频生成竞赛,不仅推动了AI技术的飞速进步,更为广大创作者带来了更强大、更高效的生产力工具,必将引领整个视频生成领域迈向一个全新的发展高度。