IT之家 04月23日 14:33
英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达推出的Eagle 2.5是一款专注于长上下文多模态学习的视觉-语言模型(VLM),擅长处理高分辨率图像和长视频序列。尽管参数规模仅为8B,该模型在Video-MME基准测试中表现出色,媲美更大规模模型。Eagle 2.5的成功得益于信息优先采样和渐进式后训练等创新训练策略,并结合了定制数据集Eagle-Video-110K。在多项视频和图像理解任务中,Eagle 2.5-8B展现出优异的性能,消融研究也验证了其训练策略的有效性。

🖼️ **信息优先采样(Information-First Sampling)**:Eagle 2.5采用信息优先采样策略,利用图像区域保留(IAP)技术,保留超过60%的原始图像区域,同时减少宽高比失真。自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。

📈 **渐进式后训练(Progressive Post-Training)**:该模型采用渐进式后训练方法,逐步扩展模型上下文窗口,从32K到128K token,确保模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。

🎬 **定制数据集Eagle-Video-110K**:Eagle 2.5的训练数据管道整合了开源资源和定制数据集Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式,包括故事级分割和短片段问答对,强调多样性而非冗余。

📊 **卓越的性能表现**:Eagle 2.5-8B在多项视频和图像理解任务中表现出色,例如在视频基准测试中,MVBench得分为74.8,MLVU为77.6,LongVideoBench为66.4;在图像基准测试中,DocVQA得分为94.1,ChartQA为87.5,InfoVQA为80.4。

🔬 **消融研究结果**:消融研究表明,IAP和ADS的移除会导致性能下降,而渐进式训练和Eagle-Video-110K数据集的加入则带来更稳定的提升,验证了训练策略的有效性。

IT之家 4 月 23 日消息,科技媒体 marktechpost 昨日(4 月 22 日)发布博文,报道称英伟达最新推出 Eagle 2.5,一款专注于长上下文多模态学习的视觉-语言模型(VLM)。

该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。尽管参数规模仅为 8B,Eagle 2.5 在 Video-MME 基准测试(512 帧输入)中得分高达 72.4%,媲美 Qwen2.5-VL-72B 和 InternVL2.5-78B 等更大规模模型。

创新训练策略

Eagle 2.5 的成功离不开两项关键训练策略:信息优先采样(Information-First Sampling)和渐进式后训练(Progressive Post-Training)。

信息优先采样通过图像区域保留(IAP)技术,保留超过 60% 的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。

渐进式后训练逐步扩展模型上下文窗口,从 32K 到 128K token,让模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。这些策略结合 SigLIP 视觉编码和 MLP 投影层,确保了模型在多样化任务中的灵活性。

定制数据集

Eagle 2.5 的训练数据管道,整合了开源资源和定制数据集 Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式。

自上而下的方法采用故事级分割,结合人类标注章节元数据、GPT-4 生成的密集描述;自下而上的方法则利用 GPT-4o 为短片段生成问答对,抓取时空细节。

通过余弦相似度(cosine similarity)筛选,数据集强调多样性而非冗余,确保叙事连贯性和细粒度标注,显著提升了模型在高帧数(≥128 帧)任务中的表现。

性能表现

Eagle 2.5-8B 在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench 得分为 74.8,MLVU 为 77.6,LongVideoBench 为 66.4;在图像基准测试中,DocVQA 得分为 94.1,ChartQA 为 87.5,InfoVQA 为 80.4。

消融研究(Ablation studies)表明,IAP 和 ADS 的移除会导致性能下降,而渐进式训练和 Eagle-Video-110K 数据集的加入则带来更稳定的提升。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 Eagle 2.5 VLM 多模态学习
相关文章