智源社区 2024年07月29日
下周二直播|谷歌DeepMind&UIUC:决策智能,基于强化学习的VLM后训练
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

该报告探讨了如何利用强化学习(RL)来训练视觉语言模型(VLM)以解决现实世界中的决策问题。报告分析了VLM在现实决策任务中面临的挑战,包括随机性、非平稳性、干扰因素等,并解释了为什么传统的Prompting和监督微调方法无法有效解决这些问题。报告强调了自主强化学习的优势,并阐述了环境和算法可扩展性的重要性。报告介绍了研究者使用的方法,包括并行环境、自动课程学习、双重鲁棒估计器以及硬优势加权回归。最后,报告展示了该方法的性能,并通过案例研究说明其优越性。

🤔 **VLM在现实决策任务中的挑战** VLM在现实决策任务中面临着许多挑战,例如随机性、非平稳性、干扰因素等。这些挑战会导致VLM在训练过程中难以学习到稳定和可靠的策略。例如,在自动购物场景中,商品价格、库存、促销活动等因素都在不断变化,这些变化会对VLM的决策造成干扰。 传统的Prompting和监督微调方法无法有效解决这些挑战。Prompting方法需要预先设计提示词,而这些提示词往往无法涵盖所有可能的场景。监督微调方法则需要大量的人工标注数据,这在现实场景中往往难以获得。

🤖 **强化学习的优势** 强化学习是一种能够从交互中学习的机器学习方法,它能够在不断尝试和犯错的过程中学习到最优策略。强化学习能够有效地解决VLM在现实决策任务中面临的挑战。 强化学习能够适应环境的变化,因为它能够从不断变化的环境中学习到新的知识。强化学习能够处理非平稳性,因为它能够学习到能够适应不同场景的策略。强化学习能够克服干扰因素,因为它能够学习到能够忽略干扰因素的策略。

💪 **研究者使用的方法** 研究者使用了一种基于强化学习的方法来训练VLM,该方法包括并行环境、自动课程学习、双重鲁棒估计器以及硬优势加权回归。并行环境能够加速训练过程,自动课程学习能够帮助VLM逐步学习到更复杂的策略,双重鲁棒估计器能够提高策略评估的准确性,硬优势加权回归能够提高策略学习的效率。

🏆 **性能与案例研究** 研究结果表明,该方法能够显著提高VLM在现实决策任务中的性能。该方法的性能超过了GPT-4V和监督微调方法,并在案例研究中展示了其优越性。例如,在自动购物场景中,该方法能够帮助VLM选择最优的商品组合,从而最大程度地提高购物效率。

🚀 **展望** 基于强化学习的VLM后训练方法为解决现实世界中的决策问题提供了一种新的思路。未来,研究者将继续探索更有效的强化学习方法,并将其应用于更多现实场景,例如自动驾驶、机器人控制、金融投资等。

报告主题:决策智能:基于强化学习的VLM后训练


报告要点

如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成设备控制任务(如自动在手机上购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如如何解决in-the-wild任务中出现的随机性造成的observation的变化,以及为什么目前的主流方法在这样的任务上效果有限(Prompting和SFT)。这引出了为什么需要使用强化学习来解决in-the-wild decision making任务,一个理想的强化学习算法应该具有怎样的特征。在方法部分,本次talk将讨论我们使用了怎样的方法来实践并行的环境、可靠的reward和有效的算法(automatic curriculum + doubly robust estimator + hard AWR)。本次讲座最后会介绍我们方法的性能(超越GPT-4V与SFT 40个点),以及通过一些case study说明强大的性能是如何得到的。

How to make VLMs suitable for in-the-wild decision making via RL? This talk comprehensively discusses about this problem and provides solutions from environment level to algorithm level, with a real-life application on digital agents. This talk will cover fundamental challenges for training VLMs on in-the-wild decision-making tasks, like stochasticity, non-stationarity, distracting factors, etc, and why existing methods like prompting and supervised fine-tuning (SFT) fails to solve these problems. It will then cover why autonomous reinforcement learning can solve the challenges, and why both environment and algorithm scalability matters. This talk then presents our parallel environment, and RL algorithm that utilizes automatic curriculum and doubly robust estimator on hard advantage-weighted regression. This talk will also show results on why this approach significantly outperforms both prompting (>40% better than GPT-4V) and SFT, and through qualitative case study show how this is achieved.

报告嘉宾

白昊是UIUC的计算机科学硕士生,同时是UC Berkeley的访问学者,师从Sergey Levine与马毅。他的主要研究方向为通过建造智能且可靠的机器代理解决现实世界问题,通常包含对于基座模型的表征学习以及开发第一性的强化学习算法。他在浙江大学完成本科教育,且曾在MSRA实习。他曾在JMLR/EMNLP/WSDM等顶级会议发表多篇有影响力的工作。

Jack Bai is a first-year M.S. student in Computer Science at the University of Illinois at Urbana-Champaign, and a visiting scholar at UC Berkeley under Prof. Sergey Levine. His research focuses on building intelligent and reliable machine agents that solve real-world tasks, which includes (1) representation learning for foundation models and (2) developing principled reinforcement learning algorithms. He was previously a visiting scholar with Prof. Yi Ma and a research assistant for Prof. Heng Ji and Prof. Chengxiang Zhai. Jack holds a dual undergraduate degree in Computer Engineering from UIUC and Zhejiang University. During his undergrad, he interned at Microsoft Research Asia (DKI Group), mentored by Dr. Shilin He. He has published several influential papers in top-tier machine learning conferences and journals, such as EMNLP, WSDM, and JMLR.

扫码报名
近期热门报告

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

决策智能 强化学习 VLM 视觉语言模型 后训练
相关文章