英伟达近日发布了其在视觉-语言模型(VLM)领域的最新成果——Eagle 2.5。这款模型的核心特点在于其专注于长上下文多模态学习,特别是在处理大规模视频和图像数据方面表现出色,标志着VLM技术在理解复杂、连续的视觉信息方面迈出了重要一步。
尽管Eagle 2.5的参数规模仅为80亿,但其性能却令人印象深刻,尤其是在处理高分辨率图像和长视频序列时。在Video-MME基准测试中,Eagle 2.5能够接受高达512帧的视频输入,并取得了72.4%的优异成绩。这一成绩足以媲美,甚至在某些情况下超过参数规模远大于它的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。这充分证明了模型架构设计和训练策略的有效性,而非单纯依赖参数数量。
Eagle 2.5的成功并非偶然,其背后是英伟达一系列创新的训练策略。主要包括以下几个方面:
- 信息优先采样策略: 通过图像区域保留(IAP)技术,确保训练过程中尽可能多地保留原始图像区域(超过60%),同时有效减少宽高比失真,从而最大限度地保留图像的关键信息。
- 自动降级采样(ADS)技术: 能够根据上下文长度动态平衡视觉和文本输入,这意味着模型能够根据输入的内容自动调整对视觉信息和文本信息的关注程度,优化文本完整性和视觉细节的平衡。例如,当分析长视频时,模型可能会更加注重关键帧的细节,而在文本描述较少的场景中,则会更加依赖视觉信息。
- 渐进式后训练策略: 通过逐步扩展模型上下文窗口,从32K到128K token,使模型在不同输入长度下都能保持稳定性能。这种策略有效避免了模型过拟合单一上下文范围,使其具备更强的泛化能力。
这些策略与SigLIP视觉编码和MLP投影层的巧妙结合,进一步提升了模型在多样化任务中的灵活性和适应性。可以预见,这种结合将成为未来VLM模型设计的重要趋势。

除了训练策略,高质量的训练数据也至关重要。Eagle 2.5整合了开源资源和定制数据集Eagle-Video-110K。Eagle-Video-110K数据集专为理解长视频设计,并采用了独特的双重标注方法:
- 自上而下的方法: 通过故事级分割,结合人工标注的章节元数据和GPT-4生成的密集描述,确保数据的完整性和准确性,能够提供全局的视频内容理解。
- 自下而上的方法: 利用GPT-4为短片段生成问答对,抓取时空细节,进一步提升数据的丰富性和多样性,补充了局部细节信息。
这种结合了全局视角和局部细节的双重标注方式,显著提升了模型的学习效率和泛化能力。

此外,通过余弦相似度筛选,Eagle-Video-110K数据集强调数据的多样性而非冗余,确保叙事连贯性和细粒度标注。这意味着数据集更注重包含不同类型的视频内容和更详细的标注信息,从而避免模型在训练过程中过度拟合特定场景。
在性能表现方面,Eagle 2.5-8B在多项视频和图像理解任务中均取得了令人瞩目的成绩。具体来说:
- 视频基准测试:在MVBench、MLVU和LongVideoBench上分别取得了74.8%、77.6%和66.4%的得分,展示了其在视频理解方面的强大能力。
- 图像基准测试:在DocVQA、ChartQA和InfoVQA上分别取得了94.1%、87.5%和80.4%的高分,证明了其在图像理解方面的优异表现。
英伟达进行的消融研究进一步验证了Eagle 2.5各项关键技术的有效性。研究表明,IAP和ADS技术的移除会导致模型性能下降,而渐进式训练策略和Eagle-Video-110K数据集的加入则带来了更稳定的性能提升。这些结果充分印证了Eagle 2.5在视觉-语言模型领域的领先地位,以及其为未来VLM模型设计方向提供的宝贵经验。