
近日,图森未来在人工智能领域取得重大突破,正式发布了其全新图生视频大模型——“如意 (Ruyi)”。更值得关注的是,他们开源了Ruyi-Mini-7B版本,用户可在Hugging Face平台免费下载并使用。
Ruyi采用独特的DiT架构,由Casual VAE模块(负责视频数据的压缩与解压)和Diffusion Transformer模块(负责生成压缩后的视频内容)两大核心模块构成。该模型拥有约71亿参数,训练数据包含约2亿个视频片段,力求为用户提供高效便捷的视频生成体验。 其设计理念注重模型效率,尤其优化了在消费级显卡(例如RTX 4090)上的运行性能,降低了使用门槛。
Ruyi功能强大,支持多种分辨率(384*384至1024*1024)和时长(最长120帧或5秒)的视频生成,并可任意设置长宽比。用户可以通过控制首帧和尾帧(最多5个起始帧和5个结束帧)来定制视频内容,并利用循环叠加功能创建任意长度的视频。此外,Ruyi还提供4档运动幅度控制和5种镜头控制选项(上、下、左、右移动和静止),赋予用户更精细的画面控制能力。
尽管Ruyi功能强大,但目前仍存在一些不足,例如手部动作不够自然、多人场景中面部细节可能失真以及转场效果的不可预测性。图森未来团队已承认这些问题,并表示将在后续版本中逐步改进。

图森未来表示,Ruyi的发布旨在利用AI技术提升动漫和游戏内容的生产效率,降低制作成本。目前Ruyi已具备根据用户输入的关键帧自动生成后续5秒内容,或根据两个关键帧生成过渡画面的能力。未来,图森未来计划推出更多版本的Ruyi,以满足不同用户的需求。 Ruyi的开源,无疑将加速AI视频生成技术的发展,并为更多开发者提供探索和创新的机会。
对于希望尝试Ruyi-Mini-7B版本的开发者,请访问以下开源链接: [此处应添加开源链接]