机器之心 01月19日
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了淘天集团未来生活实验室提出的令牌级偏好对齐方法(TPO),旨在缓解大型视觉语言模型(LVLMs)中的幻觉现象。TPO方法通过设计自我校准的视觉锚定奖励信号,在多模态偏好对齐领域首次实现了自动校准奖励,优化每个令牌生成时与视觉信息的相关性。该方法无需人工细粒度标注,提升了模型优化效率和自动化水平。实验结果表明,TPO在幻觉缓解方面取得了显著效果,超越了现有的偏好对齐方法,并能有效增强模型对视觉信息的关联。

🎯TPO方法核心创新在于引入自校准的视觉锚定奖励,通过捕捉图像加噪前后生成token概率变化来衡量视觉锚定程度,实现token级别的奖励分配,无需人工标注。

⚙️TPO方法在训练过程中,自动识别视觉锚定token,并根据token对图像信息的依赖程度动态分配奖励,使得模型更加关注视觉信息,从而有效缓解幻觉现象。

📈实验结果表明,TPO在多个幻觉评测集上均取得了显著的幻觉缓解效果,超越了现有的偏好对齐方法,尤其在基于反事实图片问答的hard问题上提升更为明显。

💡消融实验分析显示,TPO方法的性能受图像加噪步数、奖励自校准参数以及奖励分配方式的影响,其中加噪步数设置为500、a=0.5时效果最佳,正负样本同时引入奖励效果最优。

🔍Attention分析表明,TPO训练后,模型回复中每个token对图像token的attention分数加和显著提高,进一步证明了TPO可以有效增强模型对视觉信息的关联,从而缓解幻觉。

2025-01-19 11:33 北京

有效缓解 LVLMs 中的幻觉现象

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


核心作者包括顾纪豪,王瑛瑶。工作由淘天集团算法技术 - 未来生活实验室团队主要完成。为了建设面向未来的生活和消费方式,进一步提升用户体验和商家经营效果,淘天集团集中算力、数据和顶尖的技术人才,成立未来生活实验室。实验室聚焦大模型、多模态等 AI 技术方向,致力于打造大模型相关基础算法、模型能力和各类 AI Native 应用,引领 AI 在生活消费领域的技术创新。


近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。


为有效缓解 LVLMs 中的幻觉现象,团队提出了一种创新的令牌级偏好对齐方法(Token Preference Optimization,TPO),针对性设计了一个能够自我校准的视觉锚定奖励信号


该方法首次在多模态偏好对齐领域实现了自动校准奖励,优化每个令牌生成时与视觉信息的相关性。同时,它也是多模态领域首个无需人工细粒度标注的令牌级偏好优化方法,从而提升了模型的优化效率和自动化水平。


 


背景


现如今的 DPO 方法通过直接对齐人类偏好,在缓解大型视觉语言模型幻觉问题方面取得了显著成效。然而它仍然面临两个问题:



图 1:TPO 方法和其它消除幻觉的 DPO 改进方法的对比。比较了是否关注视觉锚定信息,是否生成 token-level 的监督信号和是否需要细粒度标注。比较的方法包括 DPO、POVID、CSR、RLHF-V、V-DPO 和论文中的方法 TPO。


为了解决上述问题,TPO 具有如下特点:



图 2 可视化了 TPO 训练前后的 ground truth 及模型回复的视觉锚定奖励。可以看到,我们的方法有效地找到了视觉锚定的 tokens,并能够在训练之后增强模型对视觉信息的关联。

 

图 2:一个视觉 QA 对的例子以及 TPO 对视觉信息锚定程度的打分可视化,上面的框是 GT_answer,下面的框是 LVLM 在使用 TPO 训练前后的回复。在每一个框中,上方是 TPO 训练前的打分,下方则是训练后的打分。


方法

 

图 3:TPO 的整体流程


TPO 整体流程


(以下步骤中的数据包含输入 x,图像 v 和正负样本 y_w,y_l。当不强调正样本或负样本时,统称为 y.)


1. 自校准的视觉锚定奖励生成

TPO 通过捕捉在图像是否加噪时每个生成 token 的生成概率差的变化来衡量其视觉锚定程度,首先对输入图像进行加噪处理



这里 ε ∈ N(0,1), 是提前设置好的噪声参数,是含有 1000 个元素呈等差数列的列表。k 代表加噪步数。


在获得了加噪图像之后计算,用来反映每个 token 的视觉锚定程度。它可以在每个训练步中的自动更新,对于 y 中的每一个 token



进一步地,在此引入自我校准的过程获得最终的监督信号。这一步的目的是为正负样本分配相应奖励的同时,能够对二者中所有视觉锚定 token 进行视觉信息关联度的优化。最终的视觉监督信号被定义为:



通过 sigmoid 归一化,。可以看出,对于正样本,监督信号 c 随 s 的增大而增大,对于负样本则相反。由于当  时,该 token 没有锚定视觉信息,无监督信号,此时设置 a=0.5, s=0,则 c=1,监督信号将不发挥作用。


TPO 训练


在获得了自校准的视觉锚定信号之后,可以根据 DPO 方式定义新的视觉锚定分布


则反馈函数为:



其中分别代表来自 policy 模型和 reference 模型的反馈信号。可以看到,相对于原始的 DPO,该团队在此基础上为每一个 token 加入了监督信号,而且可以在训练过程中的每一个 step 中迭代,达到自我校准的目的


TPO 在反馈函数中引入了,该项可以推导出合理的上下界由于正负样本不同的计算方法,在训练过程中会让不断增大,让模型输出锚定更多的视觉信息。


最终得到 TPO 的优化目标为:



实验结果


实验设置



主实验结果

 

图 4:各种强化学习方法在 LLaVA-1.5 上测试的在幻觉和通用 benchmarks 上的实验效果,其中 POVID 和 CSR 方法的结果是根据开源的模型权重测试的效果,V-DPO 的结果来自该文章的结果。



消融实验


 

图 5: 各指标随着加入噪声步数和参数 a 的变化趋势



图 6: 消融实验


分析实验



图 7:attention weights 对比图,左边蓝色的是训练前模型回答错误的回复,右边红色的是训练后模型回答正确的回复。


图 8: 正负样本的 c 随训练 step 得变化过程


淘天集团算法技术 - 未来生活实验室团队将持续深耕强化学习领域,为解决多模态幻觉问题贡献力量。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LVLMs 幻觉缓解 令牌级偏好对齐 视觉锚定 自校准奖励
相关文章