阿里技术 01月15日
Model-based RL自动出价算法的演进之路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种基于模型(Model-based RL,MBRL)的强化学习自动出价算法训练新范式,旨在解决传统强化学习算法在在线广告投放中存在的离线不一致和线上数据覆盖空间受限的问题。MBRL通过构建神经网络环境模型来模拟线上竞价环境,并利用该模型生成虚拟数据,与线上真实数据混合训练出价策略,实现“虚实融合”。该方法在阿里妈妈万相台多个场景中成功应用,并取得了显著的广告投放效果提升,包括消耗和GMV的增长。此外,文章还针对存在ROI约束的TargetROAS问题提出了Lagrange-MBRL算法,该算法利用拉格朗日对偶梯度法,保证了ROI约束下的出价策略优化。

💡 **MBRL核心思想**:提出基于环境模型的强化学习自动出价算法新范式,通过神经网络模拟线上竞价环境,生成虚拟数据与真实数据融合训练,解决传统RL算法的离线不一致和数据覆盖不足问题。

📈 **BCB问题解决方案**:针对预算约束(BCB)问题,MBRL算法通过神经网络环境模型和置信度处理机制,有效降低了离线不一致性,并采用COMBO+MICRO训练方法提升了出价策略的稳定性,线上实验结果显示,消耗、GMV和ROI均有显著提升。

🎯 **TargetROAS问题解决方案**:针对ROI约束(TargetROAS)问题,提出了Lagrange-MBRL算法,该算法采用拉格朗日对偶梯度法,在保证ROI达标的基础上优化出价策略,避免了传统reward shaping方法的奖励稀疏和收敛性问题,实验证明其在ROI约束保障方面具有优势。

✨ **技术创新**:MBRL方法通过引入神经网络环境模型,有效提取了线上真实数据所包含的竞价环境信息,并利用置信度处理和COMBO+MICRO训练方法提高了模型的稳定性和准确性。Lagrange-MBRL算法则利用拉格朗日对偶梯度法,解决了传统方法在处理ROI约束问题上的不足。

星鹤、迷榖、拓马 2025-01-15 08:30 浙江

强化学习自动出价算法已成为智能投放领域的标志性技术,然而其所存在的在离线不一致、线上数据覆盖空间受限等关键问题尚未被完全解决。本文提出一种Model-based RL(MBRL)自动出价算法训练新范式...



这是2025年的第6篇文章

( 本文阅读时间:15分钟 )



01



导读

近年来,强化学习自动出价算法已成为智能投放领域的标志性技术,然而其所存在的在离线不一致、线上数据覆盖空间受限等关键问题尚未被完全解决。

在本文中,我们提出一种Model-based RL(MBRL)自动出价算法训练新范式,进一步缓解上述两点挑战。经过一年的迭代,MBRL自动出价算法已在阿里妈妈万相台无界版全站推场景、货品场景、关键词场景和精准人群推广场景中完成扩流,显著增强了投放效果。未来,在基于监督学习的预训练方法逐渐收敛的趋势下,MBRL以其高效的样本利用率与基于探索超越数据集的能力,将进一步赋能生成式自动出价算法,焕发新的活力。



02



概述

近年来,出价产品智能化已经成为在线广告行业的主要发展趋势之一。广告主只需要表达预算、优化目标及拿量成本,自动出价(Auto-bidding)算法就会代表广告主在海量流量上进行自动化竞价,以满足广告主的营销诉求。然而每个广告主的竞价流量数量众多且复杂多变,自动出价算法需要找到一个能够在整个投放周期内满足设定成本并效果最优的出价序列,是一个复杂的序列决策问题。

随着机器学习的发展,从19年开始,以擅长序列决策问题著称的强化学习(Reinforcement Learning,RL)算法逐渐用于自动出价算法中。强化学习以试错学习(Trial&Error)为基本思想,在没有明确的最优出价序列的监督信号条件下,通过学习不同出价序列的反馈数据,逐步优化出价策略。至今,强化学习出价算法已经在业界大规模落地,显著提高了投放效果。

2.1 强化学习自动出价算法的范式变迁

纵观强化学习自动出价算法的发展历程,整体上经过了由基于离线仿真器训练(Simulation-based RL Bidding,简称SBRL,代表算法USCB [1]等)到抛弃离线仿真器、直接利用线上真实数据训练(Offline RL Bidding,简称ORL,代表算法CQL [2]等)的范式转变*(如图1中①和②所示)。

众所周知,强化学习训练中的试错学习过程需要与问题对应环境交互以产生反馈样本,然而出于安全和效率考虑,线上竞价环境无法在强化学习训练中使用,因此一个自然的想法便是人为构建一个可以模拟线上竞价环境的离线仿真器用于训练,这就是SBRL范式。在19年到21年间的强化学习自动出价算法多采用SBRL范式进行训练。

然而当时的离线仿真器多采用简单规则构建,与线上真实环境的gap很大,在离线不一致问题较为严重(见3.3.2实验1)。为缓解在离线不一致问题,从22年开始,一种主流的解决思路是能否抛弃离线仿真器、直接利用线上真实数据进行训练,这便是ORL范式的基本思路。

然而线上真实数据集往往由单一的线上主模型产生,其覆盖的状态-出价空间有限,在没有离线仿真器可以进一步交互的条件下,ORL无法利用到数据集覆盖空间之外的状态-出价数据进行训练,导致训练得到的自动出价策略通常被限制在线上真实数据集附近,优化幅度较小(见3.3.2实验2)。

图1. 强化学习自动出价算法的范式变迁。整体上其经过了由基于离线仿真器训练(SBRL)到抛弃离线仿真器、直接利用线上真实数据训练(ORL)的范式转变。本文提出了一种基于环境模型建模的新强化学习自动出价范式(MBRL)。

*图1展示的均为在没有进一步与线上竞价环境交互下的强化学习自动出价范式变迁。实际上,可以设计线上探索方法以扩充数据集&获得新反馈,这种线上探索的方法可以与上述每一种offline范式结合,升级为online的范式。online范式升级与图1展示的范式变迁正交,本文不做重点讨论,online范式的详细方法可见[3]。

2.2 MBRL自动出价算法演进之路Overview

23年10月,我们开始尝试基于环境模型的强化学习自动出价算法训练新范式(Model-based RL Bidding,简称MBRL)。如图1中③所示,MBRL的基本思路为:基于线上真实数据,利用深度学习训练一个泛化性较好的神经网络环境模型以模拟线上竞价环境,其所产生的数据在经过置信度处理后作为离线虚拟数据丰富训练集,与线上真实数据共同训练出价策略,构成 “虚实融合” 的训练新范式。

MBRL避免了SBRL中对于离线仿真器的不精确(如果做精准会很复杂)的人工构建,通过深度学习实现对线上真实数据所包含竞价环境信息的提取,大幅缓解了在离线不一致问题;对比ORL范式,MBRL进行了丰富且可靠的训练数据扩充,打破了ORL中出价策略在只在数据集附近优化的束缚,为优化幅度的提升开拓了空间。

24年,我们将MBRL成功迁移到具有ROI约束的TargetROAS计划上,其中我们新增了Lagrange对偶梯度法计算ROI约束下的出价策略梯度,并利用神经网络环境模型提供梯度计算所需数据,提出了具有收敛性理论保证的Lagrange-MBRL算法同年,我们针对MBRL训练中存在的问题进行技术打磨,大幅提升了其训练稳定性。

至今,MBRL已经在阿里妈妈万相台无界版的货品场景、关键词场景、精准人群推广场景和全站推场景中完成扩流,在大盘覆盖计划中带来 消耗 +3.5% / GMV +4.5% 的收益,显著增强了广告主的投放成效。



03



Preliminary:自动出价问题建模

为了便于后续算法展开,在本节我们给出自动出价问题的形式化建模并描述了出价的调控过程。考虑一个广告主的单个投放计划在一个投放周期(设定为一天)内的投放过程,自动出价问题可以统一形式化为:

其中 代表第 个流量是否竞得 分别代表第 个流量的价值和竞得的扣费, 为第 个成本约束, 为广告主设定的预算。在本文中,我们主要考虑在阿里妈妈万相台无界版中消耗占比最多的两类自动出价问题:

对于这两种问题而言,在第 个流量上的最优出价形式为 [1],其中 是未知参数。基于此,我们设定投放周期内的调控过程为:在每个流量上采用上述出价形式,并且每隔固定的时间间隔对 进行一次调节,整个调控周期中共有 的调节。

上述调控过程可以利用马尔可夫决策过程(Markov Decision Process,MDP) 进行建模,其中 为状态空间, 为动作空间:出价动作 即为 的调整幅度; 为状态转移函数,是由竞价环境决定的; 为奖励函数,针对BCB问题和TargetROAS问题需要进行不同设计。

我们构建一个神经网络模型 用来学习每个时刻最优的 调整幅度,令 为神经网络的参数。我们称 为出价策略,也是最终要学习的目标。

下面我们将分别介绍针对阿里妈妈万相台无界版中消耗占比最多的BCB和TargetROAS两类计划的MBRL算法及其实验结果。



04



针对BCB问题的MBRL算法

4.1 Overview

针对BCB问题的MBRL算法整体流程如图2所示:

图2. 针对BCB问题的MBRL算法整体流程。

4.2 算法模块细节

下面分别介绍神经网络环境模型、置信度处理机制和COMBO+MICRO训练方法这三个主要模块。

神经网络环境模型

神经网络环境模型以状态 (或其历史序列)和出价动作 (或其历史序列)作为输入,输出奖励函数和下一时刻状态的高斯分布均值和方差,并通过重参数化的方式确定具体的奖励函数和下一时刻状态的预估值

神经网络环境模型可以采用任意的网络结构,例如MLP、ResNet、Transformer等,拟合能力越强的网络结构越有助于提高环境模型的精度,也越有助于增强MBRL训练的出价策略 的性能。神经网络环境模型的训练是一个典型的监督学习问题,我们采用最大似然函数作为损失函数,并利用线上真实数据作为训练集,梯度更新其参数直到收敛,之后神经网络环境模型的参数便被freeze,在后续流程中不再变动。

置信度处理机制

为进一步降低神经网络环境模型预估的不准确性对策略训练带来的负面影响,我们对其产生的离线虚拟数据进行进一步的置信度处理。具体而言,在离线虚拟数据加入策略的训练集之前,我们对其中预估的奖励值施加一定的惩罚,由 变为 ,即

其中 代表惩罚项。这样做的目的是使得策略对线上真实数据集外的数据产生一定程度上的“悲观”,从而避免由于神经网络环境模型对状态空间中某些区域的错误乐观(即对奖励值的高估)而导致的策略性能下降,可以证明:利用置信度处理后的奖励 训练可以提升出价策略在真实竞价环境中性能的下界[4]。

那么如何设计惩罚项 的具体形式呢?

注意到由于神经网络往往在数据稠密的地方拟合效果好,方差小;在数据稀疏的地方拟合效果差,方差大,如图3所示,因此神经网络环境模型的拟合方差是一种天然的 选择。因此我们训练 个神经网络环境模型,让他们同时输出对于的奖励函数预测,并计算这些预测值的方差,记为 ,则惩罚项 的具体形式为:

其中 为常数。

COMBO+MICRO训练算法

Q值不稳定问题:理论上任意RL算法均可以用于此处出价策略的训练,然而我们在实验过程中发现使用传统RL算法(例如SAC[3])训练出价策略的各项离线指标抖动较大,其中出价策略的Q值仍可能会不合理的持续升高,甚至无法收敛(如图4所示),这对策略的挑选带来影响。经过分析我们认为这种不收敛性来自于Q函数TD-loss中贝尔曼算子带来的误差累计。具体而言,TD-loss为:

其中 是基于当前Q函数估计的贝尔曼算子,公式为:

可以看到,TD-loss实际是一个以 为近似groundtruth的MSE-loss,而 中的第二项 就是Q函数本身,即Q函数的更新是自举的,Q函数的不准确性本身会导致其更新的不准确性,尤其在训练初期,Q函数不准确度很高,传统RL算法缺失了对Q函数本身的限制。

此外,在置信度处理时我们仅对神经网络环境模型产生的奖励函数进行处理,而没有对其状态转移估计 的不准确性进行处理,神经网络环境模型可能产生不合理的远离线上真实数据集的 ,导致 值较高,从而带来Q函数的高估和不收敛问题。

COMBO+MICRO训练算法:针对Q值仍可能存在的高估和不收敛问题,我们参考了COMBO算法 [6]和MICRO算法[7]的思路,对两者进行融合,在原来Q函数损失函数的基础上做如下两项改动:

结合上述两项改动,得到最终的Q函数更新函数如下所示(红色为新增部分):

其中 为正则化系数,用于平衡真实数据集中的状态动作对和环境模型生成的状态动作对之间的保守性, 是均匀分布, 是真实数据集, 是混合数据集,由线上真实数据和神经网络环境模型生成的离线虚拟数据组成,分布:若 ,则 ;否则 是神经网络环境模型的预估值, 从其输出的高斯分布中采样。

4.3 实验结果

线上实验

MBRL在阿里妈妈万相台无界版货品场景、关键词场景、精准人群推广场景的BCB计划上均取得了显著效果,带来消耗 +1.3% / GMV +5.0% / ROI +3.7% 的收益。

消融实验

为了进一步验证MBRL有效性,我们对MBRL进行了如下消融实验:


图5. 无COMBO+MICRO(MBRL-V1,蓝线)和包含COMBO+MICRO方法的MBRL(MBRL-V2,黄线)在9个稳定性指标上的稳定性差异。可以看到增加COMBO+MICRO算法后,MBRL的训练稳定性有了明显的提升



05



针对TargetROAS问题的Lagrange-MBRL算法

与BCB问题不同,TargetROAS问题中存在额外的ROI约束,如何训练满足ROI约束的出价策略是算法的设计关键。一种常用的处理ROI约束的方式是在奖励函数中额外加入ROI惩罚项,进行reward shaping。然而ROI只有在投放周期结束时才可以计算,导致ROI惩罚项只存在于最后一步的奖励函数中,造成了奖励稀疏的问题。此外,reward shaping的方式缺乏收敛的理论保证,这些都给TargetROAS出价策略训练带来困难。为此,我们提出了Lagrange-MBRL方法缓解了上述问题。

5.1 Lagrange-MBRL Overview

Lagrange-MBRL算法的整体框架如图6所示,主要包含拉格朗日对偶梯度法和神经网络环境模型两个模块,其中拉格朗日对偶梯度法给出了出价策略更新的方式,而神经网络环境模型则提供了用于支持出价策略进行拉格朗日对偶梯度法更新的数据。两个模块的基本思路如下:

图6. Lagrange-MBRL算法的整体框架。

由于Lagrange-MBRL中神经网络环境模型的构建和训练与上一节相同,因此下文中主要对拉格朗日对偶梯度法进行介绍。

5.2 拉格朗日对偶梯度法

为方便后文的算法展开,我们对TargetROAS问题进行重新表述。在此,我们考虑同时拥有上界和下界ROI约束的TargetROAS问题:

其中 为出价策略参数, 表示一个投放周期内的拿量总和, 表示一个投放周期内的总消耗, 表示广告主设置的目标ROI值; 分别表示ROI的上界和下界限制系数,

等价问题:利用拉格朗日函数,上述Target ROAS问题可以等价地写为:

其中 为拉格朗日函数,其表达式如下所示:

其中 为拉格朗日系数, 对应超额约束(即ROI上界约束), 对应欠额约束(即ROI下界约束)。此外,我们把超过ROI上界的幅度称为超额幅度,把低于ROI下界的幅度成为欠额幅度。

对偶域-原域更新框架:对于该等价问题,我们借鉴经典的Primal-Dual Optimization(PDO[8])更新框架:首先随机初始化 ,然后交替进行对偶域和原域的更新。在对偶域中,我们固定 ,利用拉格朗日函数相对 的梯度更新 ,如下面公式(1)所示,其中与0取max是为了保障 非负;在原域中,我们固定 ,利用拉格朗日函数相对 的梯度更新 ,如下面公式(2)所示。可以证明,该框架可收敛到局部最优([8]中的定理7)。对偶域-原域更新的整体框架如下所示。

在对偶域更新中,我们推导拉格朗日函数 相对 的梯度, ,得到 更新的解析表达式如下所示。可以看到更新表达式有明确的物理含义,其中 的更新表达式即为超额幅度, 的更新表达式即为欠额幅度。直观上, 如同ROI约束的监控器,可以自动感知超额和欠额幅度,并控制着拉格朗日函数中“超额和欠额惩罚项”的幅度,相比人工设定的固定惩罚项系数具有自动感知的优势。

在原域更新中,我们推导拉格朗日函数 相对于出价策略参数 的梯度,,其解析表达式如下所示。可以看到出价策略梯度由拿量梯度和消耗梯度两部分构成。

可以利用经典策略梯度定理得到拿量梯度和消耗梯度的表达式。

其中 分别表示在状态s和出价a下按照出价策略到一天结束的累积拿量和消耗。

至此,我们给出完整的拉格朗日梯度更新框架如下所示:

其中 均需要当前出价策略的轨迹样本才可以计算,因此我们沿用了MBRL中的神经网络离线仿真器进行训练样本的生成。

下面展示了Lagrange-MBRL的整体算法流程。

5.3 实验结果

在线实验

我们在阿里妈妈万相台无界版全站推场景的 TargetROAS 计划上分别进行了Lagrange-MBRL的计划AB和预算AB实验,两个实验结论基本一致:带来消耗 +6.8% / GMV +3.8% / 达标率基本持平的效果提升。

消融实验

在消融实验中,我们考察拉格朗日对偶梯度法在训练过程中对于ROI约束的保障作用。

图7. 拉格朗日对偶梯度法和reward shaping方法在训练中出价策略的超额和欠额幅度的变化趋势。

参考文献

[01] He Y, Chen X, Wu D, et al. A unified solution to constrained bidding in online display advertising[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 2993-3001.

[02] Kumar, A., Zhou, A., Tucker, G., & Levine, S. (2020). Conservative Q-Learning for Offline Reinforcement Learning. ArXiv, abs/2006.04779.

[03] U, T., Thomas, G., Yu, L., Ermon, S., Zou, J. Y., Levine, S., ... & Ma, T. (2020). Mopo: Model-based offline policy optimization. Advances in Neural Information Processing Systems, 33, 14129-14142.

[04] Haarnoja, T., Zhou, A., Abbeel, P., & Levine, S. (2018, July). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In International conference on machine learning (pp. 1861-1870). PMLR.

[05] Yu T, Kumar A, Rafailov R, et al. Combo: Conservative offline model-based policy optimization[J]. Advances in neural information processing systems, 2021, 34: 28954-28967.

[06] Liu X Y, Zhou X H, Li G T, et al. MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator[J]. arXiv preprint arXiv:2312.03991, 2023.

[07] Chow, Y., Ghavamzadeh, M., Janson, L., & Pavone, M. (2018). Risk-constrained reinforcement learning with percentile risk criteria. Journal of Machine Learning Research, 18(167), 1-51.



欢迎留言一起参与讨论~


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 自动出价 MBRL 在线广告 拉格朗日对偶
相关文章