美团推出SOTA级虚拟人视频生成模型LongCat-Video-Avatar

在大模型军备竞赛日益白热化的今天，视频生成领域正以前所未有的速度向前推进，特别是虚拟人技术的演进，正悄然重塑着数字内容创作的版图。近期，美团旗下的LongCat团队便交出了一份令人瞩目的答卷——正式开源了其最新的视频生成模型LongCat-Video-Avatar，这标志着他们在虚拟人技术领域迈出了又一个坚实的步伐。

LongCat-Video-Avatar的出现，并非凭空而来，而是基于前代LongCat-Video模型进行的深度迭代。它延续了“一模多用”的设计理念，原生支持语音-文本-视频（AT2V）、语音-文本-图像-视频（ATI2V）以及视频续写等多种核心功能。对比早期的InfiniteTalk，新模型在人物动作的真实感、视频的稳定性以及身份的一致性上均实现了显著突破，旨在为开发者提供更高效、更具实用性的创作工具。

模型的核心创新之一在于其引入的“Cross-Chunk Latent Stitching”训练策略。面对长视频生成时常见的视觉质量衰减难题，该策略通过在潜在空间中进行特征替换，不仅有效规避了重复解码带来的图像质量损耗，还极大地提升了生成效率。

为了在长视频生成过程中维持人物身份的连贯性，LongCat-Video-Avatar还特别设计了带位置编码的参考帧注入模式（Reference Frame Injection with Position Encoding）以及参考帧跳过注意力机制（Reference Skip Attention）。这些精巧的设计在保证生成过程中身份语义的稳定性之余，也有效解决了动作重复、僵硬等常见痛点。

在权威公开数据集HDTF、CelebV-HQ、EMTD以及EvalTalker上的评估结果证实了LongCat-Video-Avatar的实力。该模型在多项关键指标上达到了SOTA（State-of-the-Art）水平，尤其在唇形同步的精准度和一致性方面表现出色。更值得关注的是，通过大规模的人工评估，模型在自然度和真实感反馈方面获得了高度认可，其强大的应用潜力不言而喻。

LongCat团队表示，LongCat-Video-Avatar是他们数字化身生成技术的一次重要演进，其核心目标是解决开发者在长视频生成过程中普遍遇到的实际难题。团队始终秉持开放共享的精神，期望通过社区的共建和反馈，不断打磨和优化这项技术。

LongCat-Video-Avatar的发布，不仅为虚拟人技术的应用开辟了更广阔的空间，也为海量创造者们在数字内容创作领域提供了全新的思路和工具。开发者们可以通过GitHub、Hugging Face等平台获取模型，即刻开启探索“千人千面”数字世界的奇妙旅程。

项目地址：

GitHub:

https://github.com/meituan-longcat/LongCat-Video

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Video-Avatar

Project:

https://meigen-ai.github.io/LongCat-Video-Avatar/

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

美团推出SOTA级虚拟人视频生成模型LongCat-Video-Avatar

相关推荐

发表回复