长视频理解的“深水区”,终于迎来了有分量的评测标准。北京时间2026年03月02日,由和牵头提出的长视频检索(Long Video Retrieval, LoVR)基准,正式被顶级国际会议WWW 2026 (The Web Conference)收录。
这一成果填补了业界在真实长视频(Long-form Video)多粒度检索评测上的空白。在当下视频内容日益丰富,且应用场景不断拓展的背景下,一个统一、权威的评测体系,不仅能指导技术研究的方向,更能加速相关AI模型的落地进程,提升用户获取信息的效率和体验。
核心突破:攻克长视频检索的“三大难关”
过往的视频检索基准,大多局限于短视频(类TikTok风格),难以应对长视频中复杂的语义关联。LoVR的出现,正是为了解决长视频检索领域存在的三个核心痛点:
-
全粒度覆盖:它能够同时支持视频级的宏观检索,以及片段级的微观精准定位,无论是“搜一部完整电影”的需求,还是“找特定关键帧”的场景,都能得到满足。
-
可扩展的高质量标注:提出了一种新颖的标注流水线,融合了大型模型(VLM)的自动生成、自动质量评分以及动态纠错,实现了低成本、可扩展的高质量多模态数据构建。
-
模型化真实场景:系统性地捕捉了长视频检索中常见的真实挑战,例如长距离语义漂移和高度信息密度等问题。
技术规格:支撑超40,000个精细片段
LoVR并非仅是理论框架,它同时也是一个大规模的实践数据库:
-
海量数据:包含467个真实长视频,平均时长超过25分钟。
-
精细切分:生成了超过40,804个精细片段,每个片段都配有经过人机双重验证的高质量文本描述(Captions)。
-
语义融合技术:引入了语义融合方法,确保在生成全视频摘要时,不会丢失关键的上下文信息,为长距离语义建模提供了统一的评测平台。
行业洞察:产学研合作推动AGI落地
作为和北京大学联合研究的代表性成果,LoVR的入选标志着国内头部数据库企业正从单一的存储、计算能力,迈向“向量检索+多模态理解”这一前沿赛道。随着流媒体、安防监控、在线教育等领域长视频应用的爆发,LoVR提供的多粒度检索标准,将成为未来视频搜索引擎、AI视频剪辑助手实现“知其然,更知其所以然”的关键基石,为解决更深层次的信息获取和内容创作难题提供动力。