近日,阿里云宣布将其视频生成大模型“万相2.1 (Wan)” 正式开源,面向全球开发者开放源代码。这一举措标志着中国在人工智能视频生成领域的技术自信以及推动全球创新生态的决心。
此次开源遵循宽松的 Apache 2.0 协议,开发者可以自由使用、修改和分发该模型。具体而言,开源内容包括拥有 140 亿和 13 亿参数两种规格模型的全部推理代码与权重。开发者可通过 Github、HuggingFace 以及魔搭社区等平台便捷地下载和体验,进行文字生成视频或图片生成视频的任务。
大型模型(14B)版本“万相” 在多个关键领域展现了突出性能。阿里云官方数据显示,该模型在指令遵循、复杂运动生成、物理建模以及文字视频生成等方面表现出色。更值得注意的是,在行业内通用的视频生成模型评测基准 Vbench 中,“万相2.1” 以 86.22% 的总分超越了包括 Sora、Luma、Pika 等在内的国内外知名模型。Vbench作为一项权威评测,其结果反映了“万相2.1”在生成质量、一致性、和真实性方面的优势。
小型模型(1.3B)版本同样令人关注。尽管参数量较小,但其性能指标超越了部分更大尺寸的开源模型,甚至与一些闭源模型性能接近。更为关键的是,该模型对硬件要求不高,能够在消费级显卡上流畅运行,仅需 8.2GB 显存即可生成 480P 的视频。这一特性极大地降低了模型的使用门槛,为二次模型开发、学术研究,以及小型创意团队提供了便利。
阿里云选择开源“万相2.1”具有多重积极意义。首先,它展示了阿里云在该领域的技术实力和持续投入。其次,开源为全球开发者提供了宝贵的学习和实验资源,有助于加速视频生成技术的创新与发展。最后,通过开放协作,集全球开发者之力,有望推动视频生成技术在更广泛的领域得到应用,例如教育、娱乐、营销等,并催生更多创新应用场景。可以预见,随着越来越多的企业和研究机构加入,视频生成技术将会迎来新的突破和变革。
