阿里万相：消费级显卡畅跑的视频生成大模型开源

Rain科技2月26日消息，2月25日深夜，阿里云重磅开源了其视频生成大模型万相2.1（Wan）。

此次开源采用Apache2.0协议， 14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在Github、HuggingFace、魔搭社区下载体验。

据介绍，14B版本的万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。更值得注意的是，在权威评测集Vbench中，万相2.1以总分86.22%的成绩大幅超越了Sora、Luma、Pika等国内外模型，稳居榜首位置。这一成绩表明，万相2.1在视频生成的技术水平上已经达到国际领先水平，其性能和功能都得到了权威机构的认可。

1.3B版本的万相模型不仅优于更大尺寸的开源模型，甚至能与一些闭源模型匹敌。更令人惊喜的是，它能在消费级显卡上运行，仅需8.2GB显存即可生成480P视频，非常适合二次模型开发和学术研究。这一特性极大地降低了视频生成技术的门槛，让更多的开发者和研究者可以参与其中，推动技术的创新和应用。

阿里云官方表示，自2023年起，他们就坚定地走大模型开源路线。目前，千问（Qwen）的衍生模型数量已超过10万个，构成了全球最大的AI模型家族。这显示了阿里云在AI领域的开放态度和强大的技术实力。

在视频生成技术方面，万相2.1通过自研的高效VAE和DiT架构，增强了时空上下文建模能力，支持无限长1080P视频的高效编解码，并首次实现了中文文字视频生成功能。这意味着，用户可以通过输入中文文本，直接生成高质量的视频内容，大大提升了视频创作的效率和便捷性。

随着万相的开源，阿里云的两大基础模型均已开源，实现了全模态、全尺寸大模型的开源。这不仅体现了阿里云在AI领域的实力和决心，也为全球开发者提供了更广阔的创新空间。

自2025年1月DeepSeek爆火以来，开源已逐渐成为国内外大模型领域的“标配”。越来越多的企业意识到，开源能够促进技术的共享和发展，加速AI技术的普及和应用。

进入2月，字节豆包、昆仑万维、百度文心、阿里通义千问等纷纷推出自家的开源模型，正式加入这场开源热潮。可以预见，随着越来越多的企业加入开源行列，AI技术的发展将迎来新的爆发期。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

阿里万相：消费级显卡畅跑的视频生成大模型开源

相关推荐

发表回复