52CV 2025-07-12 14:04 江苏
代码、模型、数据全开源
🧐 研究团队通过错误分析发现,多模态推理失败的主要原因在于视觉感知错误,而非逻辑推理能力不足,感知错误占比高达67%。
💡 PAPO的核心创新在于隐式感知损失(Implicit Perception Loss)的设计,通过鼓励模型在原始图像和损坏图像上产生不同的输出,从而提升视觉感知能力。
📈 PAPO算法在8个多模态推理基准上取得了平均4.4%的性能提升,在高视觉依赖任务中提升高达8.0%,同时减少了30.5%的感知错误。
🛠️ 研究团队还发现了KL_prcp Hacking现象,并提出了Double Entropy Loss正则化方法来解决这一问题,保证了PAPO的稳定性和有效性。
52CV 2025-07-12 14:04 江苏
代码、模型、数据全开源
关键词:PAPO 内驱感知策略优化 | 多模态推理 | 隐式感知损失 (Implicit Perception Loss) | Group Relative Policy Optimization | 强化学习
🌐 项目主页:https://MikeWangWZHL.github.io/PAPO
📄 论文地址:https://arxiv.org/abs/2507.06448
💻 开源代码:https://github.com/MikeWangWZHL/PAPO
🤗 模型:
https://huggingface.co/collections/PAPOGalaxy/papo-qwen-686d92dd3d43b1ce698f851a
🤗 数据:
https://huggingface.co/collections/PAPOGalaxy/data-686da53d67664506f652774f
近年来,使用可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 已被证明是提升大语言模型多步推理能力的高效策略。其中,Group Relative Policy Optimization (GRPO) 作为 Proximal Policy Optimization (PPO) 的计算高效变体,在数学推理任务中取得了优异表现。然而,当这些算法被直接应用于多模态推理场景时,往往无法充分利用视觉信息进行推理。
现有研究虽然在多模态强化学习领域取得了一定进展,但大多集中在数据优化 (Data, Rollout) 以及奖励机制 (Reward) 的设计上,很少从核心优化算法层面进行深度改进。这导致了一个核心问题:现有的RLVR算法并未显式激励模型基于视觉输入进行推理。
针对这一核心挑战,伊利诺伊大学香槟分校 (UIUC) 与阿里巴巴通义实验室联合推出了全新的多模态强化学习算法——PAPO (Perception-Aware Policy Optimization)。该算法通过创新的隐式感知损失 (Implicit Perception Loss) 设计,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决现有方法中感知与推理脱节的问题。
PAPO的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题。研究团队对使用标准GRPO训练的Qwen2.5-VL-3B模型在四个基准数据集上的200个错误案例进行了详细的人工分析和分类。
令人惊讶的发现:
**感知错误占67.0%**:模型无法准确解读视觉内容,如空间关系判断错误、标签关联错误等**推理错误占18.0%**:逻辑推理过程中的错误,如应用错误的定理或规则**计算错误占10.0%**:算术运算错误**不一致错误占5.0%**:中间推理步骤与最终答案不符这一发现颠覆了我们对多模态推理失败原因的认知——问题的核心不在于逻辑推理能力,而在于视觉感知的准确性。
上图展现了一个典型例子:在几何推理任务中,用户询问"Find x",正确答案是9。使用传统GRPO训练的模型错误地将x与60度角对应的边关联,犯了感知错误;而PAPO训练的模型则正确识别了x是30度角对应的短边,得到了正确答案。这个例子清晰地展示了PAPO在提升视觉感知准确性方面的显著效果。
基于上述错误分析发现,PAPO提出了创新的隐式感知损失 (Implicit Perception Loss) 设计。该方法的核心思想是:一个优秀的多模态推理模型应该在原始图像和损坏图像上产生显著不同的输出分布,这表明模型真正依赖于有意义的视觉内容。
PAPO的技术创新包括:
1. 感知信息增益比设计定义感知信息增益比:
r_prcp = π_θ(o|q,I) / π_θ(o|q,I_mask)
其中 I_mask
是通过随机遮盖补丁生成的损坏图像。
通过最大化KL散度鼓励模型在原始图像和损坏图像上产生不同的输出:
KL_prcp = D_KL[π_θ(o|q,I) || π_θ(o|q,I_mask)]
3. 无缝集成GRPO框架PAPO作为GRPO的简单而有效的扩展,完整的目标函数为:
J_PAPO = J_GRPO + γ·KL_prcp
图像遮盖策略优化PAPO探索了两种基于patch的图像遮盖策略来生成损坏图像 I_mask
:
实验发现:尽管随机遮盖方法更简单,但其效果反而优于复杂的语义感知遮盖。这可能是因为语义感知遮盖倾向于完全遮盖显著对象,而随机遮盖能保持更好的平衡。
研究团队在8个多模态推理基准上对Qwen2.5-VL-3B和7B模型进行了全面评估。
核心亮点:
4.4%整体平均提升:在所有多模态基准测试中表现一致优于GRPO8.0%显著提升:在高视觉依赖任务中,如LogicVista、SuperClevr Counting等30.5%感知错误减少:验证了PAPO直击问题核心的有效性更快收敛:从训练早期(约25步)就开始显现提升训练动态分析PAPO相比GRPO展现出明显更优的训练动态特征:
更快收敛:从训练早期就开始显现提升更稳定训练:避免了GRPO中常见的奖励不稳定问题持续改进:随着训练进程,改进效果不断增强消融实验深度分析1. 隐式感知损失权重影响关键发现:
γ值适度增大(0.02以内)能带来更显著的改进γ值过大(如0.04)会导致严重的模型崩溃大模型对高γ值更敏感,需要更早的正则化2. 遮盖策略与比例优化关键发现:
相对大的(0.6-0.8)遮盖比例效果最佳完全遮盖(比例1.0)表现不佳,且容易导致模型崩溃随机遮盖策略尽管简单但优于更复杂的语义感知遮盖PAPO与移除Reference KL的协同效应PAPO与现有算法改进高度兼容。研究团队验证了PAPO与移除原有Reference模型KL约束的组合效果:
协同效应显著:
3B模型:+11.19% 整体相对提升7B模型:+3.99% 整体相对提升这一结果表明PAPO不仅是一个独立有效的改进,还能与其他优化技术形成协同效应。
在深入研究PAPO时,研究团队发现了一种特有的模型崩溃现象——KL_prcp Hacking。当隐式感知损失权重γ设置过大时,模型会"钻空子"过度优化KL_prcp项。
崩溃特征:
生成与问题无关的Token(相关性降低18%)KL_prcp方差增加8.4倍模型输出充斥无意义的LaTeX格式代码早期预警信号识别关键指标:
隐式感知损失急剧下降训练奖励崩溃裁剪比例高持续增长双策略熵损失同时上升影响因素与防范策略主要影响因素:
损失权重:γ > 0.02 容易导致崩溃模型规模:大模型更敏感遮盖比例:极端比例(如1.0)风险更高Double Entropy Loss正则化创新研究团队提出了创新的双重熵损失正则化方法:
J_PAPO = J_GRPO + γ·KL_prcp + η₁·H[π_θ] + η₂·H[π_θ^mask]
实验验证了Double Entropy Loss在防止崩溃的同时保持最佳性能。
研究团队发现,许多主流的多模态推理基准中实际上包含大量非"多模态"任务。针对这一现象,团队对当前主流数据集进行了系统的视觉依赖性分析:
依赖程度分类:
**低依赖 (Low)**:文本中包含大部分视觉信息**中等依赖 (Medium)**:需要视觉和文本信息结合**高依赖 (High)**:主要依靠视觉理解PAPO的差异化表现:
在高视觉依赖任务中改进最为显著(接近8%)在中等依赖任务中表现稳定即使在低依赖任务中也有一致改进这一分析进一步验证了PAPO针对感知瓶颈问题的精准定位。
案例1:直角三角形边长计算
GRPO错误:将x与错误的边关联,得到9√3PAPO正确:准确识别x为30度角对应边,得到正确答案9案例2:圆形几何问题
GRPO错误:无法正确理解弦与圆心的距离关系PAPO正确:准确把握几何关系,计算出正确结果计数任务表现案例3:物体计数问题
GRPO错误:未能正确感知和区分不同物体PAPO正确:准确识别不同物体并准确计数在SuperClevr Counting数据集上:
准确率提升:从55.81%提升到61.38%(相对提升9.9%)复杂场景理解:在包含多个重叠对象的场景中准确计数逻辑推理增强案例4:多图逻辑推理问题
GRPO错误:错误的视觉感知和视觉推理PAPO正确:准确识别不同子图中的视觉特征,并进行正确的逻辑推理在LogicVista基准的抽象逻辑推理中:
模式识别准确率提升:从38.14%提升到39.84%抽象关系理解:更好地理解图形间的逻辑关系PAPO的主要计算开销来自于对rollout序列进行额外的前向传播(使用损坏的视觉输入)。
计算开销统计:
3B模型:每训练步增加67.2秒(使用2张H100 GPU)7B模型:每训练步增加108.6秒(使用4张H100 GPU)额外前向传播:约48.8-49.7秒尽管存在适度的计算开销增加,但考虑到显著的性能提升,这一开销是可接受的。
伊利诺伊大学香槟分校 (UIUC) 与阿里巴巴通义实验室联合提出的PAPO (Perception-Aware Policy Optimization) 算法,代表了多模态强化学习领域的重要突破。该方法通过引入创新的**隐式感知损失 (Implicit Perception Loss)**,仅依赖内部监督信号即可有效引导模型在学习推理的同时提升视觉感知能力,从根本上打破了传统方法中感知与推理的割裂。
核心贡献总结问题识别:通过系统性错误分析,首次发现多模态推理中67%的错误来源于感知问题算法创新:提出简单而有效的隐式感知损失,无需额外数据或外部模型性能突破:在8个多模态基准上平均提升4.4%,高视觉依赖任务提升8.0%理论深化:识别并解决KL_prcp Hacking问题,提出Double Entropy Loss正则化实用价值:作为GRPO的直接替换,易于集成到现有训练流程未来研究方向技术扩展:
跨模型兼容性研究:扩展到更多模态架构,验证通用性算法融合:结合更多RL算法如DAPO,构建更完整的强化学习训练框架效率优化:优化训练效率,减少计算开销应用拓展:
复杂任务适应:扩展到视频理解、多页文档问答、视觉定位等任务大规模验证:在更大规模模型和数据集上验证效果实际部署:探索在实际产品中的应用效果PAPO为多模态强化学习领域带来了深层次的优化思路与广泛的实际应用价值,在学习推理的同时学会感知的核心理念将推动多模态AI系统向更加智能和实用的方向发展。
在学习推理的同时学会感知!
🌐 项目主页:https://MikeWangWZHL.github.io/PAPO
📄 论文地址:https://arxiv.org/abs/2507.06448
💻 开源代码:https://github.com/MikeWangWZHL/PAPO
🤗 模型:
https://huggingface.co/collections/PAPOGalaxy/papo-qwen-686d92dd3d43b1ce698f851a
🤗 数据:
https://huggingface.co/collections/PAPOGalaxy/data-686da53d67664506f652774f
ENDAI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑