经济观察网 记者 任晓宁 9月24日下午,字节跳动旗下火山引擎发布了两款AI视频模型,“豆包”等,标志着字节跳动正式加入竞争激烈的AI视频赛道。
AI视频赛道的火热
AI视频生成技术正成为互联网巨头和初创企业争相布局的焦点领域。 8月底,MiniMax率先推出其视频模型;9月19日,阿里巴巴也紧随其后发布了通义万相视频模型。据经济观察网不完全统计,仅在国内,近四个月已有超过十家公司推出相关产品,显示出该市场巨大的发展潜力和竞争强度。
字节跳动入局的战略考量
相较于其他公司,字节跳动的入局时间相对较晚。火山引擎总裁谭待在接受媒体采访时表示,字节跳动并非追求速度,而是更注重模型的质量和长期技术积累。 他认为AI视频技术将深刻影响未来十年甚至二十年的发展,因此需要打造经得起时间检验的产品。
字节跳动选择此时入局,与其在视频领域的深厚积累密不可分。抖音和剪映庞大的用户基础和海量视频数据,为其AI视频模型的研发提供了坚实的数据支撑。一位AI视频创业公司创始人指出,其他公司往往依赖海外开源数据、AI合成数据以及向版权方购买数据进行模型训练,而字节跳动则拥有得天独厚的优势。
谭待强调,抖音和剪映在视频领域的业务理解和技术积累,对“豆包”视频模型的成功至关重要。“豆包”作为多模态模型,涵盖文本、音乐、视频、图片等多种形式,能够更精准地理解用户指令,生成更符合预期的视频内容。他特别提到,“豆包”能够生成多个主体运动的复杂交互画面,并保证多镜头切换的内容一致性,从而避免了AI视频常见“PPT式”的僵硬感。
AI视频技术现状与挑战
尽管AI视频赛道竞争激烈,但当前技术仍面临诸多挑战。 北京国际电影节上一个获奖的2分钟AI视频,其创作团队就耗费了十几天时间。目前,AI视频创作流程相对复杂,需要创作者编写脚本、拆分场景、编写细致的提示词,并进行多次迭代才能获得理想效果。一位创作者甚至将AI视频创作比作“抽卡游戏”,需要大量尝试才能获得好结果。
主流AI视频工具一次生成视频长度通常限制在4-10秒,要生成较长的视频需要拼接多个片段。 此外,受限于算力,创作者往往需要等待10多分钟才能获得结果,这对于普通用户而言并不友好。 因此,AI视频目前尚未形成一个真正意义上的大规模市场。头豹研究院预测,到2026年,中国AI视频市场规模将达到92.79亿元,但仍处于发展初期。
上述AI视频创业公司创始人认为,目前行业处于极早期,用户对产品性能的容忍度较高。最终的市场竞争将取决于产品能力能否获得用户认可,在这个方面,互联网大厂和AI创业公司站在同一起跑线。