在大模型军备竞赛日益白热化的今天,视频生成领域正以前所未有的速度向前推进,特别是虚拟人技术的演进,正悄然重塑着数字内容创作的版图。近期,美团旗下的LongCat团队便交出了一份令人瞩目的答卷——正式开源了其最新的视频生成模型LongCat-Video-Avatar,这标志着他们在虚拟人技术领域迈出了又一个坚实的步伐。
LongCat-Video-Avatar的出现,并非凭空而来,而是基于前代LongCat-Video模型进行的深度迭代。它延续了“一模多用”的设计理念,原生支持语音-文本-视频(AT2V)、语音-文本-图像-视频(ATI2V)以及视频续写等多种核心功能。对比早期的InfiniteTalk,新模型在人物动作的真实感、视频的稳定性以及身份的一致性上均实现了显著突破,旨在为开发者提供更高效、更具实用性的创作工具。

模型的核心创新之一在于其引入的“Cross-Chunk Latent Stitching”训练策略。面对长视频生成时常见的视觉质量衰减难题,该策略通过在潜在空间中进行特征替换,不仅有效规避了重复解码带来的图像质量损耗,还极大地提升了生成效率。
为了在长视频生成过程中维持人物身份的连贯性,LongCat-Video-Avatar还特别设计了带位置编码的参考帧注入模式(Reference Frame Injection with Position Encoding)以及参考帧跳过注意力机制(Reference Skip Attention)。这些精巧的设计在保证生成过程中身份语义的稳定性之余,也有效解决了动作重复、僵硬等常见痛点。
在权威公开数据集HDTF、CelebV-HQ、EMTD以及EvalTalker上的评估结果证实了LongCat-Video-Avatar的实力。该模型在多项关键指标上达到了SOTA(State-of-the-Art)水平,尤其在唇形同步的精准度和一致性方面表现出色。更值得关注的是,通过大规模的人工评估,模型在自然度和真实感反馈方面获得了高度认可,其强大的应用潜力不言而喻。

LongCat团队表示,LongCat-Video-Avatar是他们数字化身生成技术的一次重要演进,其核心目标是解决开发者在长视频生成过程中普遍遇到的实际难题。团队始终秉持开放共享的精神,期望通过社区的共建和反馈,不断打磨和优化这项技术。
LongCat-Video-Avatar的发布,不仅为虚拟人技术的应用开辟了更广阔的空间,也为海量创造者们在数字内容创作领域提供了全新的思路和工具。开发者们可以通过GitHub、Hugging Face等平台获取模型,即刻开启探索“千人千面”数字世界的奇妙旅程。
项目地址:
GitHub:
https://github.com/meituan-longcat/LongCat-Video
Hugging Face:
https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project:
https://meigen-ai.github.io/LongCat-Video-Avatar/