图像转有声视频!值得买科技与人大高瓴联合研究亮相CVPR2025

2025年6月,在美国田纳西州举行的国际计算机视觉与模式识别会议(CVPR2025)吸引了全球目光。作为计算机视觉领域内的顶级学术会议,CVPR每年汇聚来自世界各地的顶尖学者、研究人员和行业专家,共同探讨该领域最前沿的理论突破与技术创新。

今年,中国值得买科技与中国人民大学高瓴人工智能学院联合研发的《图像转有声视频》科研成果成功入选CVPR2025,备受瞩目。这项创新性研究首次提出了从静态图像直接生成同步音视频内容的框架——JointDiT(Joint Diffusion Transformer),成功地迈出了从静态图片到包含动态视频和同步音频的高质量联合生成的重要一步。业内专家认为,这项成果有望为未来的多媒体内容创作带来革命性的变革。

图像转有声视频!值得买科技与人大高瓴联合研究亮相CVPR2025

CVPR由IEEE与CVF联合主办,其论文录用标准极为严苛,被录用的论文代表着当前计算机视觉和模式识别领域内最具影响力的研究成果。此次值得买科技与人大高瓴的合作成果能够入选,体现了中国科研力量在该领域的崛起,也证明了产学研深度融合在技术创新中的重要作用。

值得买科技与人大高瓴人工智能学院早在2023年便开启了合作,旨在结合值得买科技在集群算力、消费数据和应用场景方面的优势,以及人大高瓴在人工智能科研和人才培养方面的优势,共同探索AI内容创作、多模态生成等前沿领域。此次入选CVPR2025的《图像转有声视频》成果,正是双方高效合作的又一重要体现,体现了双方在人工智能领域的深度探索和创新实践。

传统的生成式模型研究往往聚焦于单一模态内容的生成,比如高保真视频画面或自然音频片段。然而,如何生成自然融合的有声视频,一直面临着诸多挑战,例如视频和音频分离、画面和声音语义不匹配、时间轴上不同步等问题。为了解决这些难题,JointDiT创新性地提出了图像到有声视频生成(I2SV)的新任务,并构建了一个统一的联合生成框架,有效克服了上述局限性。

图像转有声视频!值得买科技与人大高瓴联合研究亮相CVPR2025

JointDiT的关键在于其采用的“重组+协同”创新思路,以及设计的感知式联合注意力机制(Perceiver Joint Attention)。该机制能够实现对视频帧和音频序列之间细粒度的互动建模,从而提升音视频内容的协同性。此外,研究团队还提出了联合无分类器引导(JointCFG)及其增强版,进一步增强了音视频之间的语义一致性和时间同步性。测试结果表明,JointDiT在视频质量、音频自然度、同步性和语义一致性等方面均取得了显著的提升。

为了充分验证JointDiT的有效性,研究团队在三个标准数据集上进行了大规模的实验测试。实验结果显示,JointDiT在各项核心指标上均超越了基于pipeline组合的多阶段生成方法。用户主观打分测试也显示出JointDiT的优越性,在“视频质量”、“音频质量”、“语义一致性”、“同步性”和“整体效果”五项评分中均名列前茅,体现了用户对该技术的认可。

图像转有声视频!值得买科技与人大高瓴联合研究亮相CVPR2025

人大高瓴人工智能学院的宋睿华副教授表示,研究团队未来计划将JointDiT扩展到图像、文本、音频、视频四种模态的联合建模,从而为构建更通用、更智能的多模态生成系统奠定坚实基础。这一目标无疑将为AI技术的发展注入新的活力,推动多模态人工智能迈向新的高度。

值得买科技作为一家专注于AI与内容驱动的数字消费服务集团,在AI浪潮中积极布局,将AIGC列为集团重点战略项目。与人大高瓴团队的合作,是值得买科技全面AI战略中的重要组成部分。据悉,双方正在积极推动开源计划,旨在使更多的开发者能够便捷地应用这一创新成果,共同推动该技术的普及和应用。

图像转有声视频!值得买科技与人大高瓴联合研究亮相CVPR2025

目前,值得买科技已经形成了从技术底层、产品形态到生态共建的全面AI布局,不仅构建了以AIUC引擎为代表的底层AI技术能力,还推出了面向用户、品牌、创作者及大模型的AI产品和解决方案。同时,值得买科技积极将自身沉淀的AI能力开放给合作伙伴,共建高质量AI生态,以期推动整个行业生态的繁荣与发展。这充分体现了其在人工智能领域的领先地位和战略眼光。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 6月 12日 上午9:54
下一篇 2025年 6月 12日 上午11:42

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!