腾讯近期在人工智能领域取得重大突破,其混元大模型全新推出的文生视频功能正式上线,用户只需简单的一句话,即可轻松生成视频。此举标志着AI视频生成技术迈入新的阶段,也将对视频创作领域产生深远影响。

据悉,该视频生成大模型参数规模高达130亿,是目前市面上最大的开源视频模型之一。腾讯将其完整的模型权重、推理代码和算法,均已公开发布在Hugging Face平台和Github上,供全球企业和个人开发者免费使用。这一开放策略,旨在鼓励开发者在其基础上构建更丰富的生态插件,共同推动AI视频生成技术的发展。
目前,用户可通过腾讯元宝APP中的AI应用模块申请试用AI视频生成功能。同时,腾讯云也已同步开放API内测申请,为企业客户提供更便捷的接入服务。
该模型支持中英文双语输入,并提供多种视频尺寸和清晰度选项,以满足不同用户的需求。其生成的视频质量显著提高,即使是“冲浪”、“跳舞”等高动态动作场景,也能保持画面流畅、不易变形。尤其值得一提的是,在镜面或镜子场景中,该模型展现出令人惊艳的效果:镜面反射动作与外部场景完美同步,光影反射效果也高度符合物理规律,充分体现了其强大的技术实力。

技术层面,腾讯混元视频生成大模型采用了先进的DiT架构,并进行了多项优化升级。例如,新一代文本编码器的引入大幅提升了模型的语义理解能力,使其能够更精准地处理复杂场景下的多个主体描述,实现更细腻的画面呈现。此外,先进的图像视频混合VAE(3D变分编码器)的应用,也显著提升了视频细节表现力,尤其在“小人脸”、“高速镜头”等对细节要求极高的场景中,效果尤为明显。

总而言之,腾讯混元大模型文生视频功能的推出,不仅是腾讯在AI领域的一次重要突破,也预示着AI赋能视频创作时代的到来。其开源策略有利于推动整个行业的技术进步,为大众带来更便捷、更有趣的视频创作体验。