字节跳动加入AI视频大战

经济观察网记者任晓宁 9月24日下午，字节跳动旗下火山引擎发布了两款AI视频模型，“豆包”等，标志着字节跳动正式加入竞争激烈的AI视频赛道。

AI视频赛道的火热

AI视频生成技术正成为互联网巨头和初创企业争相布局的焦点领域。 8月底，MiniMax率先推出其视频模型；9月19日，阿里巴巴也紧随其后发布了通义万相视频模型。据经济观察网不完全统计，仅在国内，近四个月已有超过十家公司推出相关产品，显示出该市场巨大的发展潜力和竞争强度。

字节跳动入局的战略考量

相较于其他公司，字节跳动的入局时间相对较晚。火山引擎总裁谭待在接受媒体采访时表示，字节跳动并非追求速度，而是更注重模型的质量和长期技术积累。他认为AI视频技术将深刻影响未来十年甚至二十年的发展，因此需要打造经得起时间检验的产品。

字节跳动选择此时入局，与其在视频领域的深厚积累密不可分。抖音和剪映庞大的用户基础和海量视频数据，为其AI视频模型的研发提供了坚实的数据支撑。一位AI视频创业公司创始人指出，其他公司往往依赖海外开源数据、AI合成数据以及向版权方购买数据进行模型训练，而字节跳动则拥有得天独厚的优势。

谭待强调，抖音和剪映在视频领域的业务理解和技术积累，对“豆包”视频模型的成功至关重要。“豆包”作为多模态模型，涵盖文本、音乐、视频、图片等多种形式，能够更精准地理解用户指令，生成更符合预期的视频内容。他特别提到，“豆包”能够生成多个主体运动的复杂交互画面，并保证多镜头切换的内容一致性，从而避免了AI视频常见“PPT式”的僵硬感。

AI视频技术现状与挑战

尽管AI视频赛道竞争激烈，但当前技术仍面临诸多挑战。北京国际电影节上一个获奖的2分钟AI视频，其创作团队就耗费了十几天时间。目前，AI视频创作流程相对复杂，需要创作者编写脚本、拆分场景、编写细致的提示词，并进行多次迭代才能获得理想效果。一位创作者甚至将AI视频创作比作“抽卡游戏”，需要大量尝试才能获得好结果。

主流AI视频工具一次生成视频长度通常限制在4-10秒，要生成较长的视频需要拼接多个片段。此外，受限于算力，创作者往往需要等待10多分钟才能获得结果，这对于普通用户而言并不友好。因此，AI视频目前尚未形成一个真正意义上的大规模市场。头豹研究院预测，到2026年，中国AI视频市场规模将达到92.79亿元，但仍处于发展初期。

上述AI视频创业公司创始人认为，目前行业处于极早期，用户对产品性能的容忍度较高。最终的市场竞争将取决于产品能力能否获得用户认可，在这个方面，互联网大厂和AI创业公司站在同一起跑线。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。