在当下,AI视频生成技术正以前所未有的速度演进,为创意内容生产开辟了新的疆域。然而,即便是最前沿的模型,如Sora、Kling、Veo等,在处理长片幅、连续性叙事时,仍然面临着一个普遍性的挑战:如何确保同一个角色在不同场景下的外形特征保持一致,以及场景环境的风格不发生突兀的偏移。这不仅仅是视觉上的瑕疵,更是阻碍AI视频走向成熟叙事表达的关键瓶颈。在此背景下,来自字节跳动与南洋理工大学的研究团队联合推出了一项名为StoryMem的创新系统,旨在通过一种更为精巧的机制,为AI视频的连贯性注入新的活力。
StoryMem的核心创新在于其对视频生成过程中的“记忆”机制。不同于以往的诸多尝试,该系统在生成视频时,并非简单地依赖于全局的上下文信息,而是能够智能地捕捉并存储那些具有代表性的“关键帧”。这些被缓存下来的关键帧,在后续场景的生成过程中,将作为重要的视觉参照。当AI需要绘制新的画面时,StoryMem会将这些存储的关键帧信息与当前正在生成的视频内容一同输入模型,从而确保新生成的画面在人物外貌、服饰细节乃至背景环境中,都能最大程度地贴合已有的视觉设定。

现有AI视频生成模型普遍擅长于生成短小精悍的片段,但在尝试将多个片段无缝缝合,构建一个完整的故事时,往往会遭遇角色“变脸”或场景风格“跳戏”的尴尬。过去针对这一问题的解决方案,要么是耗费巨大的计算资源,要么是在场景拼接时牺牲了原有的视觉一致性。StoryMem的出现,标志着在解决这一难题上的一次重要进展。
StoryMem系统中,用户自定义的视觉风格可以被高效地“固化”。在实际的训练过程中,研究团队巧妙地采用了Low-Rank Adaptation (LoRA) 技术,并将其应用于适配了阿里巴巴开源模型Wan2.2-I2V。通过对大约40万个时长均为五秒的视频片段进行训练,并对这些片段按视觉风格进行聚类,StoryMem得以学习到如何生成具有高度风格化且前后连贯的续集内容。这种基于视觉相似性的分组策略,极大地提升了模型学习和保持跨场景一致性的能力。
研究成果显示,StoryMem在提升跨场景一致性方面表现卓越,相较于未经修改的基础模型,其性能提升高达28.7%。更令人鼓舞的是,通过用户调研反馈,参与者普遍更青睐StoryMem生成的内容,认为其在美学和连贯性上均有显著优势。这表明,StoryMem不仅在技术指标上有所突破,也在用户感知层面获得了积极认可。
当然,StoryMem也并非完美无缺。研究团队坦诚地指出了系统在处理复杂场景时可能遇到的局限性,例如在包含多个角色的复杂画面中,有时会出现角色视觉特征的错配。为应对这一挑战,研究者建议在生成提示词(prompt)中,对角色进行更清晰、更具辨识度的描述,这将有助于进一步优化生成效果,提升整体的作品质量。
项目链接:https://kevin-thu.github.io/StoryMem/
核心亮点:
🌟 StoryMem系统有效攻克了AI视频生成中角色与场景一致性难题。
📊 通过关键帧缓存机制,StoryMem将跨场景一致性表现提升了28.7%,远超现有模型。
🛠️ 系统仍需在复杂场景处理及提示词的精细化上持续优化,但已展现出AI视频叙事长片化的巨大潜力。