快手可灵大模型开放图生视频功能，支持视频续写

近日，快手可灵大模型发布重大更新，正式开放了“图生视频”功能，支持将静态图像转化为 5 秒时长的视频，用户可以通过提示词控制图像中的运动效果。此次更新还推出了视频续写功能，支持对生成视频一键续写和连续多次续写，最长可生成约 3 分钟的视频内容。

据了解，快手可灵大模型的“图生视频”功能可根据用户上传的图片进行深度解析，赋予其 5 秒的鲜活生命力。得益于其基础模型架构中的 3D 时空联合注意力机制，可灵在构建复杂时空运动方面具备更为出色的能力，在转换静态图像为动态视频时可细腻而准确地实现大幅度的运动场景。

可灵大模型还具备提示词融合技术，并深化了对图像语义和用户指令的理解整合，能够根据用户提供的不同文本指令变换视频中的动态表现。通过文本与图像意义的紧密联动，可灵大模型将按需定制的视觉叙事能力提升到了新的高度。此外，它还支持不同风格的图像输入，不论自然写实、还是风格化图像都能处理，同时可兼容各种长宽比的输入。

此次可灵大模型更新的重点之一便是视频续写功能，可支持对生成视频一键续写和连续多次续写。快手方面介绍，用户可先通过“文生视频”和“图生视频”两种模式生成约 5 秒钟视频，然后再使用视频续写功能，每次续写都能将视频延续约 5 秒，最终可实现长达 3 分钟的视频。

更为重要的是，视频续写功能与文本控制机制进行了深度融合，这意味着每一段续写都能融入用户的创意和想法。通过添加不同的提示词实现转换和场景过渡，进而确保新生成的部分与原视频间的连贯性和合理性，从而提升视频的生动性。

快手此前在 6 月 6 日正式发布旗下可灵视频生成大模型，率先开放的是“文生视频”能力，效果对标 Sora，并在快影 App 同步开放邀测体验。目前已有约 14 万人排队申请。

此外，基于可灵大模型的更多应用也已经或即将落地，例如基于肢体驱动的“AI 舞王”已在快手和快影 App 落地，用户只需上传一张全身或半身照片即可体验“一键跳舞”。而“AI 唱跳”也即将上线，仅需一张照片即可同时驱动表情和肢体动作，生成一段唱跳视频。

公开资料显示，可灵大模型为快手 AI 团队自研，其基于类 Sora 技术路线，并结合了多项自研创新技术，能够生成 1080P 分辨率、时长 2 分钟（帧率 30fps）的视频，且支持自由宽高比。

目前，快手在 AI 领域已展开全面布局，先后发布了 1750 亿参数规模的通用大语言模型“快意”和文生图大模型“可图”，同时还推出了 Direct-a-Video、Video-LaViT、I2V-Adapter、UNIAA 等视频关键技术。这些技术和模型的发布，展现了快手在人工智能领域的持续投入和技术领先地位。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

快手可灵大模型开放图生视频功能，支持视频续写

相关推荐

发表回复