英伟达发布 Eagle 2.5 视觉语言 AI 模型：8B 参数媲美 GPT-4o

业界

2025

04/23

15:21

IT之家

4 月 23 日消息，科技媒体 marktechpost 昨日（4 月 22 日）发布博文，报道称英伟达最新推出 Eagle 2.5，一款专注于长上下文多模态学习的视觉-语言模型（VLM）。

该模型专注于理解大规模视频和图像，尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B，Eagle 2.5 在 Video-MME 基准测试（512 帧输入）中得分高达 72.4%，媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。

创新训练策略

Eagle 2.5 的成功离不开两项关键训练策略：信息优先采样（Information-First Sampling）和渐进式后训练（Progressive Post-Training）。

信息优先采样通过图像区域保留（IAP）技术，保留超过 60% 的原始图像区域，同时减少宽高比失真；自动降级采样（ADS）则根据上下文长度动态平衡视觉和文本输入，确保文本完整性和视觉细节的优化。

渐进式后训练逐步扩展模型上下文窗口，从 32K 到 128K token，让模型在不同输入长度下保持稳定性能，避免过拟合单一上下文范围。这些策略结合 SigLIP 视觉编码和 MLP 投影层，确保了模型在多样化任务中的灵活性。

定制数据集

Eagle 2.5 的训练数据管道，整合了开源资源和定制数据集 Eagle-Video-110K，该数据集专为理解长视频设计，采用双重标注方式。

自上而下的方法采用故事级分割，结合人类标注章节元数据、GPT-4 生成的密集描述；自下而上的方法则利用 GPT-4o 为短片段生成问答对，抓取时空细节。

通过余弦相似度（cosine similarity）筛选，数据集强调多样性而非冗余，确保叙事连贯性和细粒度标注，显著提升了模型在高帧数（≥128 帧）任务中的表现。

性能表现

Eagle 2.5-8B 在多项视频和图像理解任务中表现出色。在视频基准测试中，MVBench 得分为 74.8，MLVU 为 77.6，LongVideoBench 为 66.4；在图像基准测试中，DocVQA 得分为 94.1，ChartQA 为 87.5，InfoVQA 为 80.4。

消融研究（Ablation studies）表明，IAP 和 ADS 的移除会导致性能下降，而渐进式训练和 Eagle-Video-110K 数据集的加入则带来更稳定的提升。

IT之家附上参考地址

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

英伟达 AI

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。