7月5日,商汤科技正式发布了全新的“日日新 SenseNova 5.5”大模型体系,并同时推出了国内首款所见即所得模型“日日新 5o”。
“日日新 5o”以其卓越的交互效果,直接对标业界领先的GPT-4o。该模型深度整合了声音、文本、图像和视频等多种形式的跨模态信息,为用户带来了前所未有的AI交互体验——实时的流式多模态交互。

这种交互方式赋予了模型听、看以及寻找话题的能力,使其在与用户的沟通中表现得如同一个真实的对话伙伴。 “日日新 5o”的交互模式在实时对话和语音识别等领域具有广泛的应用前景。其强大的多任务处理能力使得它可以在同一模型中同时处理多种任务,并且能够根据不同的上下文环境灵活地调整其响应和行为。
作为国内首个流式原生多模态交互模型,“日日新 5.5”的推出无疑是一个重要的里程碑。该模型基于超过10TB的高质量训练数据,其中包括大量精心合成的人工数据,构建起了复杂而高效的高阶思维链。通过采用创新的混合端云协同架构,“日日新 5.5”拥有高达6000亿的参数,从而确保了模型能够在云端和边缘端之间实现最佳协同,提供高达109.5字/秒的快速推理能力。
除了“日日新 5o”,“日日新 5.5”体系还包含另一个重要创新——可控人物视频生成大模型Vimi。该模型只需一张任意风格的照片,便能生成与目标动作高度一致的人物视频。Vimi支持通过多种方式进行驱动,包括现有的人物视频、动画、声音以及文字等,为用户提供了极大的创作灵活性。
总的来说,“日日新 5.5”大模型体系的发布,标志着商汤科技在人工智能领域取得了重大突破,也为中国人工智能发展注入新的活力。 “日日新 5o”和Vimi的推出,将进一步推动多模态交互和AI生成技术的应用,为用户带来更智能、更便捷的体验,并赋能更多行业发展。