(本文阅读时间:14分钟)
编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
7月13日至7月19日,人工智能、机器学习领域全球顶级的学术盛会之一 ICML 将在温哥华举办。来自微软亚洲研究院的多篇论文入选。在接下来的几天里,我们将通过两期“科研上新”为大家带来多篇研究院入选 ICML 2025 的精选论文解读。第一期的研究工作主要关注决策模型,涵盖强化学习、RLHF、扩散模型建模等方向。
欢迎大家参与文末投票,选出你最感兴趣的论文!我们将邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!
「 本期内容速览 」
01BRIDGE:通过多智能体迭代优化与扩散建模,实现文本引导的时间序列生成
论文链接:https://arxiv.org/abs/2503.02445
高质量的时间序列生成(Time-Series Generation, TSG)在金融、医疗、气象等诸多领域都有着极为广泛的应用。然而,当前的许多方法主要集中在无条件的单一领域生成上,难以满足现实场景中对于跨领域、可控性强的时间序列生成需求。特别是在那些需要结合领域知识、实例特征或操作约束的任务中,传统方法往往在灵活性与精度方面存在明显不足。
鉴于此,研究员们提出了一种创新思路——利用文本作为控制信号来引导时间序列生成,从而提高生成结果的语义一致性与定制化能力。数据稀缺是目前文本引导生成过程中所面临的关键挑战,对此,研究员们设计了一个基于大语言模型(LLMs)的多智能体框架,专门用于自动合成丰富多样且真实可靠的文本到时间序列(Text-to-TS)数据集。通过多个智能体之间的协同优化,该框架可以模拟人类专家的标注过程,显著提升数据的质量与多样性。
在此基础之上,研究员们又进一步提出了 BRIDGE 框架,这是一种混合式的文本控制时间序列生成方法。BRIDGE 框架通过融合语义原型与文本描述,为生成过程提供了领域级别的精准引导信号,并且巧妙地结合了扩散模型与优化机制,实现了高保真度与高可控性的时间序列生成。
研究员们在12个不同的数据集上对 BRIDGE 框架进行了全面评估。结果显示,BRIDGE 在其中的11个数据集上均取得了最先进的生成质量表现。在控制能力方面,相较于传统无文本输入的生成方式,BRIDGE 在均方误差(MSE)上实现了12.52%的显著提升,在平均绝对误差(MAE)上也达到了6.34%的提升。
这些结果充分表明,文本不仅能够提供丰富的语义信息,还能有效地嵌入实例级的时间模式,进而极大地增强生成模型的表现力与适应性。
02DPO与PPO融合:用于RLHF的强化词元优化
论文链接:https://arxiv.org/abs/2404.18922
大语言模型通过基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)实现了和人类的价值对齐。在这一过程中,使用近端策略优化(Proximal Policy Optimization, PPO)可以最大化稀疏的句子级奖励,但 PPO 在实际应用中常常面临训练不稳定、样本效率低下等问题。
为解决这一挑战,研究员们尝试将 RLHF 问题建模为 token 级的马尔可夫决策过程(Markov Decision Process, MDP),并使用细粒度的 token 级奖励信息来进行强化学习训练。基于此,研究员们提出了“强化词元优化”(Reinforced Token Optimization, RTO)算法。该算法通过人类偏好数据学习 token 级奖励函数,然后根据奖励信号进行策略优化。RTO 证明了另一种 RLHF 算法直接偏好优化(Direct Preference Optimization, DPO)训练得到的模型,可以隐式地提供 token 级奖励信息。因此,RTO 将 DPO 和 PPO 融合,能够使用 PPO 优化 DPO 提供的 token 级奖励。
理论分析表明,RTO 可以寻找近似最优策略的能力,使其在样本效率方面具有优势。实践中,RTO 使用1/8的样本数量即可超越 PPO。研究员们在多个基准任务上对 RTO 进行了测试,其表现优异,大幅超过传统 PPO 和其他偏好学习算法。在 AlpacaEval 2 基准上,RTO 相较于 PPO 提升了7.5个百分点;在 Arena-Hard 任务上提升了4.1个百分点,充分展示了其在真实对齐任务中的强大性能。
03将扩散规划习惯化,实现高效且有效的决策制定
论文链接:https://arxiv.org/abs/2502.06401
近年来,扩散模型在决策领域展现出极大的潜力,特别是在强化学习任务中表现突出。然而,这类模型在推理阶段的高计算成本严重制约了其实际应用。对此,研究员们提出了 Habi 通用框架,通过将计算密集的扩散规划模型转化为高效的决策模型来突破这一限制。
Habi 框架的创新灵感源自人类认知的习惯化机制——通过反复训练,将高成本的目标导向行为转化为高效的自动化响应。其核心在于利用扩散模型强大的训练阶段表征能力,结合策略蒸馏等技术,将其决策能力迁移至轻量级策略网络,从而实现推理阶段的快速响应。
研究员们在 D4RL 等标准离线强化学习基准上进行了系统验证。结果显示,即使在普通笔记本 CPU 环境下,经过习惯化处理的模型仍能保持800Hz以上的决策频率,显著超越现有扩散规划方法的推理效率。更值得注意的是,模型在加速推理的同时,性能与原始扩散模型基本持平,部分任务中甚至展现出更优的表现。
该研究还从跨学科视角进行了深入探讨:在生物学层面,通过类比大脑习惯化机制阐释了模型的行为迁移原理;在工程层面,系统评估了新方法在不同任务和架构下的鲁棒性。这项研究不仅为扩散规划的效率优化提供了创新解决方案,更为复杂决策模型的实用化落地开辟了新的技术路径。
04组合多臂老虎机的离线学习方法
论文链接:https://arxiv.org/abs/2501.19300
组合多臂老虎机(Combinatorial Multi-armed Bandit, CMAB)是一个重要的序贯决策框架,过去十年中受到广泛关注。但现有研究大多集中在在线学习场景,往往忽视了在线交互带来的高昂成本以及现实中大量可用的离线数据。为此,本论文提出了首个专为 CMAB 设计的离线学习框架 Off-CMAB,旨在充分利用已有数据,降低学习成本,同时保持高效的策略优化能力。
Off-CMAB 的核心是组合下置信界(CLCB)算法。该算法结合了悲观的奖励估计和组合优化求解器,能够在不进行在线交互的前提下,从离线数据中学习出接近最优的策略。为评估离线数据的质量,研究员们提出了两个新的数据覆盖条件,并在理论上进行了证明:在满足这些条件的情况下,CLCB 算法可以达到近乎最优的次优性间隙,其性能与理论下界相差仅一个对数因子。
该方法在多个实际应用中得到了验证,包括排序学习、LLMs 缓存策略优化,以及社交影响最大化等任务。实验表明,CLCB 不仅能处理非线性奖励函数和复杂的反馈机制,还能应对分布外的动作样本,即使这些样本不包含最优甚至可行的动作。在多个合成和真实数据集上的广泛实验进一步证明了 CLCB 的优越性能,其在准确性和稳定性方面均优于现有方法。
论文链接:https://arxiv.org/abs/2409.06957
RLHF 已成为对大语言模型进行对齐微调的核心技术。其关键在于通过奖励模型模拟人类偏好,引导模型生成更符合人类价值观的响应。然而,在代码生成和数学推理等需要精确判断的任务中,奖励模型给出的信号中通常夹杂了大量的噪声,这是因为奖励模型容易受到输入分布、模型偏差和训练数据稀疏性等方面的影响。这种噪声不仅降低了训练效率,还可能误导策略学习,最终影响模型性能。
研究员们发现,奖励模型给出的奖励信号的可靠性随着奖励区间的不同而具有明显差异。由此,研究员们提出了一种名为“策略过滤”(Policy Filtration)的新方法,并将其集成到主流的 PPO 算法中,形成 PF-PPO。该方法的核心思想是在训练过程中动态识别并过滤掉那些奖励不可靠的样本,仅保留奖励模型在其“信任区域”内的样本用于策略更新。具体做法是通过计算奖励与参考得分之间的决定系数(R²)来评估奖励的可信度,并据此确定最优的奖励过滤区间。研究发现,奖励模型在高分段或中间分段的稳定性更强,因此策略过滤机制能够有效提升训练信号的质量。
研究员们在多个真实任务上的实验验证了PF-PPO的有效性。PF-PPO 在 HumanEval、MBPP 和 LeetCode Contest 等代码生成基准测试以及 Ape210K 和 CMATH 等数学推理基准测试上都取得了明显的性能提升。而且,该算法能够适用于不同的模型架构(如 deepseek-7B,qwen1.5-7B 和 doubao-25B),并在不同模型下均表现出显著的能力提升。此外,PF-PPO 还展现出更强的训练稳定性和更快的收敛速度,表明其在实际部署中具有较高的实用价值。
该研究表明,策略过滤是一种简单而有效的机制,能够显著缓解奖励模型噪声对 RLHF 训练的干扰。该方法为未来更高效、更可靠的 RLHF 训练框架提供了重要启示。
06预训练语言模型中马尔可夫注意力机制在离线强化学习中的作用探析
论文链接:https://arxiv.org/abs/2409.06985
近年来,离线强化学习(Offline Reinforcement Learning, Offline RL)因其无需在线交互即可学习策略,受到了广泛关注。决策 Transformer(Decision Transformer, DT)作为一种能够将强化学习问题转化为序列建模任务的方法,在多个环境中取得了显著成果。与此同时,预训练语言模型(如 GPT)在自然语言处理领域的成功,激发了科研人员将其迁移至强化学习任务的兴趣,期望借助其强大的表示能力来提升策略学习的效率与泛化能力。然而,在实际应用中,虽然这类跨领域预训练模型在短期任务中表现优异,但在需要长期规划能力的任务中却常常失效,甚至不如从零开始训练的模型。
为此,微软亚洲研究院的研究员们开始对其内部机制进行深入探究。本篇论文聚焦于预训练语言模型中的注意力机制,首次揭示了“马尔可夫注意力头”(Markov Heads)在强化学习任务中的关键作用。研究发现,这些注意力头倾向于仅关注当前时间步及其相邻状态,然后形成一种近似马尔可夫性的注意力分布。这种结构在短期任务中有助于对局部信息的利用,但在长期任务中却限制了模型对远程依赖的建模能力,从而影响策略的整体表现。
为解决这一问题,研究员们提出了一种通用的增强方法 GPT2-DTMA(General Pre-trained Transformer with Decision Transformer Mixture of Attention)。该方法在微调阶段引入混合注意力机制(Mixture of Attention, MoA),通过组合马尔可夫注意力与全局注意力,使模型能够根据任务需求自适应地调整注意力分布,从而兼顾短期与长期任务的表现。该机制无需修改原始模型结构,且具有良好的通用性与可扩展性。
研究员们在多个标准离线强化学习基准环境(如 D4RL)上对该方法进行了实验,结果表明,GPT2-DTMA 在短期任务中显著优于传统 DT 和其他预训练方法,在长期任务中也有效缓解了马尔可夫注意力带来的性能瓶颈,表现接近甚至超过从零训练的模型。此外,分析还表明,MoA 机制能够动态调整注意力头的权重分布,提升了模型对不同时间尺度信息的建模能力。
快来为你希望直播分享的论文投上一票吧!
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文