火山引擎AI创新巡展:豆包大模型赋能内容创作新时代
9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,重磅发布两款全新AI视频生成大模型——PixelDance和Seaweed,并对外公布了豆包大模型的多项升级,展现了其在AI领域积极进取的姿态。

图源:雷科技
面向C端的四大AI应用
本次巡展设置了四个展示区,分别呈现了AI大模型在C端四大领域的应用:AI奇遇(娱乐)、AI音乐(创作)、AI智能助手(问答)以及AI Bot(个性化AI需求)。其中,AI Bot作为一款全新的AI应用开发平台,尤为引人注目。它基于强大的AI大模型理解能力,即使不懂编程,用户也能轻松创建专属AI应用,只需按步骤描述需求,其余工作AI即可完成。
雷科技此前基于AI Bot打造的小雷Bot,便是其优秀应用案例之一,利用雷科技十年积累的数据为读者提供产品咨询、问答等服务。
AI奇遇则提供沉浸式互动体验,用户可扮演角色,与AI实时生成的故事进行互动,用户反馈将影响故事走向,为用户创造独一无二的故事体验。这项技术不仅能提升用户创作乐趣,也为游戏厂商提供了全新的创作思路,实现千人千面的游戏剧情。
此外,豆包AI问答模型已升级至支持256K上下文理解和复杂逻辑推理,能够满足用户更复杂的提问需求。
豆包视频生成模型:突破视频创作边界
依托字节跳动在短视频领域的深厚积累,火山引擎的视频生成模型更注重实际创作流程和效果。通过DiT架构和高效的DiT融合计算单元,该模型能够执行复杂指令,并支持变焦、环绕、平摇、缩放、目标跟随等专业运镜效果,显著提升了视频生成的真实感和表现力。

图源:雷科技
更值得关注的是,该模型有效解决了视频生成中常见的服装、配饰、光影、风格突变等问题,大幅提升了视频的整体观感。通过对画面元素的标记和持续维护,模型最大程度地消除了画面中的不一致性,避免了容易察觉的BUG。此外,它还支持多动作指令互动和人物中途插入等功能,进一步扩展了创作的可能性。
现场演示视频展现了豆包视频生成模型在多人互动和运动长镜头方面的出色表现,流畅的画面、一致的元素风格以及对细节的把控,都体现了其强大的创作能力。普通用户也能通过它创作出高质量的视频作品。
深度优化的Transformer结构提升了模型的泛化能力,使其支持3D动画、2D动画、国画、黑白、厚涂等多种风格,以及多种比例的视频生成,拓展了其应用范围。

图源:雷科技
豆包AI模型全面升级
除了视频生成模型,火山引擎还宣布了豆包通用模型、音乐模型等多个模型的全面升级。豆包AI音乐生成模型能够在极短时间内创作出高质量的音乐,并支持多种曲风和歌词生成,实现了AI音乐创作链路的全流程打通。其生成的音乐效果逼真,甚至令人难以分辨是否由AI创作。

图源:雷科技
从视频到音乐,再到数字人,火山引擎构建了一个整合故事脚本创作(豆包通用模型)、图像生成、视频生成、音乐生成以及剪辑(剪映AI)的全流程AI创作生态。这极大地降低了内容创作的门槛和难度。
此外,火山引擎还展示了全新的数字人生成应用,支持快速生成数字人并进行音色克隆。结合同声传译模型,数字人可以实现多语言切换,为直播、在线教学、智能客服等领域提供新的解决方案,并为出海市场提供支持。

图源:雷科技

图源:雷科技
火山引擎正在构建一个跨越视频、音乐和数字人等多个领域的AI创作生态系统,推动AI技术在更多行业落地。未来,随着技术的持续发展,AI将为内容创作者和企业提供更强大的创作工具和更高效的解决方案。
高性能、低成本:豆包大模型的算力优势
火山引擎持续提升大模型的承载能力,豆包大模型的默认并发流量标准已达800K TPM,远高于行业平均水平。同时,其算力成本已降至行业最低,仅为0.0008元/千tokens,推动算力成本进入“厘”时代。
低成本的算力有效降低了开发者的进入门槛和运营成本,促进了更健康的AI应用生态发展。数据显示,5月份降价后,豆包大模型的调用量在4个月内增长了10倍,达到每天13000亿次,市场覆盖率也显著提升。
火山引擎积极向企业开放底座大模型,旨在推动行业创新。他们并非简单地提供模型,而是从企业需求出发,提供更安全、稳定的底座并结合企业应用场景,提供全面的服务和支持。
关于豆包视频生成模型的上线时间,火山引擎表示,由于其依托于强大的豆包通用模型以及持续的效率优化,能够更快进入公开市场,目前已在即梦AI等功能中开放内测,并计划在国庆节后推出更多公开API。
火山引擎强调技术积累与长期规划的重要性,他们致力于持续优化底层技术架构,以更低的成本提供更高质量的服务,并保持技术领先地位。