在近期举行的2025技术交流日活动中,商汤科技重磅发布了其最新一代大模型体系——“日日新SenseNova V6”(以下简称“日日新V6”)。此次发布标志着商汤科技在多模态大模型领域又迈出了坚实的一步。据介绍,日日新V6通过多模态长思维链训练、全局记忆技术以及强化学习等多方面的创新突破,旨在构建业界领先的多模态推理能力,同时有效降低了运营成本。这一战略举措体现了商汤科技对AI技术实用性和经济性的双重考量。
商汤科技表示,日日新V6的多模态训练效率与语言训练效率已达到行业领先水平,这得益于其在底层架构和算法优化方面的持续投入。不仅如此,其推理成本也控制在了行业最优水平,这对于大规模部署和应用至关重要。特别值得一提的是,日日新V6推出的轻量级全模态交互模型SenseNova V6 Omni,为国内多模态交互领域树立了新的标杆。SenseNova V6 Omni模型的轻量化设计,使其可以更便捷地部署在各种边缘设备上,从而拓展了其应用场景。
更令人瞩目的是,日日新V6还涵盖了国内首个能够进行10分钟中长视频深度解析的大模型。据称,其性能已能与谷歌的Gemini 2.5 Turbo相媲美。这意味着日日新V6在视频理解方面取得了显著进展,能够应对更复杂和高要求的应用场景。这种长视频解析能力不仅可以应用于娱乐领域的内容创作,还可以在安防监控、智能交通等领域发挥重要作用。
商汤科技董事长兼首席执行官徐立强调:“AI的价值在于其在日常生活中的广泛应用。商汤的日日新V6将跨越多模态的界限,探索推理与智能的无限潜能。” 这句话体现了商汤科技对人工智能发展方向的深刻理解,即AI技术最终要服务于人类,融入到生活的方方面面。
在实际应用中,日日新V6在复杂的文档处理场景中表现出色,尤其是在保险理赔方面。该模型能够快速分析理赔材料,检测其中是否存在材料缺失、乱开药或乱检查等问题,从而为用户提供了高效的解决方案。 针对小额理赔,日日新V6能够自主检测风险提示,进行交叉验证,并最终为用户提供详尽、多维的结论,实现从模型到客户使用的无缝对接。这极大地缩短了传统理赔流程所需的时间,提高了效率,为用户带来了更好的体验。以往需要3-7天的流程,现在可以大大缩短。
商汤科技在多模态强化学习方面亦有重大突破,构建了面向多种图文任务的混合增强学习框架。该框架基于不同难度分级和多奖励模型的强化学习训练,极大地提升了模型的性能。 这种强化学习技术的引入,使得日日新V6能够不断从数据中学习和优化,从而提升其在各种任务中的表现。
凭借“全局记忆”技术,日日新V6打破了传统模型对短视频的限制,能够支持10分钟级视频的全帧率解析。用户不仅可以获得视频的精彩内容智能剪辑,还能保留住珍贵的瞬间。 这项技术拓展了视频理解的应用范围,使得用户可以更方便地从长视频中提取关键信息和精彩瞬间。
对于游戏玩家而言,日日新V6同样具备强大的吸引力。它能够理解游戏录屏中的精彩内容和值得记录的时刻,并剪辑出高光时刻。同时,用户还可以自定义生成解说文案,分享游玩经验和精彩操作。 这种智能化剪辑功能为游戏玩家提供了便利,让他们能够更轻松地分享自己的游戏体验。
商汤科技自研的技术能够将视觉、听觉和语言信息以及时间轴逻辑进行对齐,形成多模态统一时序表征。通过细粒度级联信息压缩和内容敏感的动态过滤,实现了长视频的高比例压缩,10分钟视频可以压缩到16K tokens,同时保留关键语义。 这种高效的压缩技术,使得日日新V6能够在处理长视频时,既能保证信息完整性,又能降低计算和存储成本。
随着日日新SenseNova V6的发布,商汤科技的实时交互融合大模型也升级至SenseNova V6 Omni。该模型在角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等多个场景下进行了深度优化。以翻译点读为例,SenseNova V6 Omni能够让用户通过手指实现精准的空间交互,并理解局部与全局信息的关系。 这意味着SenseNova V6 Omni在人机交互方面拥有更高的灵活性和智能化水平。
SenseNova V6 Omni拥有更加人性化的感知和表达能力,以及情感理解能力,已在具身智能等多个领域实现了多行业、多场景的落地应用。整合日日新SenseNova V6的全部能力,商汤科技还推出了全新的商量APP。用户只需通过一个入口,即可享受文字、图像、视频等多种模态的流式交互体验。 通过商量APP,用户可以体验到日日新V6所带来的各种强大功能,从而更好地理解和应用人工智能技术。