金山云近日宣布成功适配了阶跃星辰最新推出的两款引人注目的多模态大模型——全球参数规模最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。这一举措旨在为用户提供更强大的AI赋能服务,用户现在可直接登录金山云官网体验这些前沿技术。
在Step-Video-T2V的适配方面,金山云凭借其强大的算力基础设施和稳定的云计算环境,充分释放了这款拥有300亿参数模型的潜力,为用户带来了流畅且高质量的视频生成体验。Step-Video-T2V模型能够直接生成204帧、540P分辨率的视频,并在指令遵循、运动平滑性、物理合理性和美感度等多个关键指标上,显著优于目前市面上其他开源视频生成模型。这意味着用户能够以更低的成本和更高的自由度,创造出令人惊艳的视频内容。
为了实现Step-Video-T2V模型的高效部署,阶跃星辰官方提供了全面的多卡并行支持。其中,文本编码器和VAE(变分自编码器)部分由独立进程维护,而DiT(Diffusion Transformer)部分则支持4卡或8卡并行,显存需求为每张卡至少80GB。在单机部署方面,推荐使用搭载5张80GB显存GPU的服务器。金山云针对此需求,预先配置了ubuntu22.04系统,并内置了包含Step-Video-T2V模型及其依赖环境的镜像。通过金山云的云服务,资源可以得到精准协调,确保文本编码器、VAE和DiT等模块协同工作,从而显著提升视频生成速度和效率。这种针对特定模型的优化部署,体现了金山云在云计算服务方面的专业性和深度。

用户只需在金山云裸金属服务器控制台选择内置Step-Video-T2V的自定义镜像进行创建,然后启动模型即可开始使用。启动过程也十分便捷,用户只需登录服务器,进入Step-Video-T2V-main目录,运行相应的Python脚本,当看到“Running on all addresses (0.0.0.0)”的提示时,便意味着服务已经成功启动。
除了视频生成模型,金山云还成功适配了实时语音对话系统Step-Audio。利用其先进的云计算技术,金山云有效降低了模型的响应延迟,从而实现了更自然流畅的语音交互体验。无论是实时语音聊天还是语音指令控制,Step-Audio模型都能迅速准确地响应,为用户提供卓越的语音交互服务。这款创新的开源语音模型能够根据场景需求生成包含情绪、方言、语种、歌声和个性化风格的表达,并与用户进行高质量的对话。相较于其他模型,Step-Audio在理解和生成更具 nuanced (细微差别) 的中文方面表现出色,这源于其在中国语言文化上的优化。
在各项主流公开评测中,Step-Audio模型表现亮眼,多次位列第一。尤其是在HSK-6 (汉语水平考试六级) 评测中,Step-Audio展现出卓越的性能,证明其是“最懂中国话”的开源语音交互大模型。其优秀的HSK-6成绩也侧面反映了该模型在自然语言处理方面的深度和广度,以及对汉语复杂性和多样性的深刻理解。
与视频模型类似,金山云也为Step-Audio预装了ubuntu22.04系统,并内置了包含Step-Audio模型及其依赖环境的镜像。用户可以通过金山云裸金属服务器控制台选择相应的镜像进行创建和启动。启动过程同样简单,登录服务器后进入Step-Audio-main目录,运行Python脚本即可。

在人工智能技术蓬勃发展的浪潮下,金山云始终坚持与前沿技术保持同步,并积极携手生态合作伙伴,为领先技术的落地转化提供坚实的支持。通过此次对阶跃星辰两款多模态大模型的成功适配,金山云不仅展示了自身在云计算领域的强大实力和技术创新能力,也为AI技术的普及和应用贡献了力量。未来,金山云有望通过持续的技术投入和合作,为更多行业和用户提供更高效、更智能的云服务解决方案。