智谱AI近日宣布其视频生成模型全面升级,推出全新一代产品——CogVideoX。该模型已在智谱清言的PC端、移动应用端以及小程序端全面上线,用户可通过“清影”功能免费体验AI文本生成视频和图像生成视频。
CogVideoX模型在技术上取得了显著进展,其核心技术特点包括:
- 高效的三维变分自编码器结构 (3D VAE):该结构有效压缩原始视频数据,降低训练成本和难度。同时结合3D RoPE位置编码模块,提升了帧间关系的捕捉能力,建立视频中的长期依赖关系。
- 端到端视频理解模型:该模型可生成视频描述,增强对文本的理解和指令遵循能力,确保生成视频更符合用户需求,并能处理复杂的指令。
- 文本、时间、空间三维一体融合的transformer架构:该架构摒弃传统的cross attention模块,采用Expert Block实现文本与视频模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

“清影”主要特点包括:
- 快速生成:用户只需30 秒即可完成 6 秒视频的生成。
- 高效的指令遵循能力:即使是复杂的指令,“清影”也能准确理解并执行。
- 内容连贯性:生成的视频能够较好地还原物理世界中的运动过程。
- 画面调度灵活性:镜头可以流畅地跟随画面中的主体移动。
值得注意的是,智谱大模型开放平台bigmodel.cn也已部署“清影”,企业和开发者可通过API调用式体验并使用“清影”的文本生成视频和图像生成视频功能。这将进一步推动AI视频生成技术的应用与发展。
CogVideoX模型的推出标志着智谱AI在视频生成技术领域取得了新的突破,也为AI视频生成技术提供了新的应用方向。未来,AI视频生成技术将更加成熟,并将在更多领域发挥重要作用。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。