掘金 人工智能 05月28日 17:28
强化学习不再靠奖励?组合优化迎来“偏好驱动”新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一篇来自中国移动、清华、北大等机构的 ICML 2025 论文,提出了一种名为 Preference Optimization(PO)的新方法,为强化学习在组合优化领域带来了新的思路。该方法的核心在于,不再依赖模糊的奖励函数,而是让模型学习解之间的优劣关系。PO框架通过重参数化、经典偏好模型和将本地搜索融入训练等关键机制,在TSP、CVRP和FFSP等数据集上实现了性能的全面提升,收敛速度加快,解的质量逼近最优解,并具有良好的泛化能力。这项工作改变了强化学习在组合优化中的训练范式,为AI优化系统的工程落地提供了新的可能性。

🤔 PO的核心在于学习“谁更优”,而非依赖数值奖励。它将强化学习依赖的数值奖励转化为偏好信号,通过关注解之间的优劣关系进行训练,从而避免了对精确奖励的依赖。

💡 PO框架融合了三大关键机制:重参数化、经典偏好模型和将本地搜索变成训练的一部分。重参数化将reward函数重写为策略概率的函数;经典偏好模型将“哪个解更好”转换为概率值;在训练阶段融入本地搜索,让模型提前学会优化动作,提升解的质量。

📈 实验结果表明,PO在TSP、CVRP和FFSP等数据集上全面碾压传统REINFORCE方法。PO在多个主流强化学习求解器框架中都表现出色,收敛速度提升1.5~2.5倍,解的质量逼近最优解甚至打平,且泛化能力良好。

🚀 PO的意义在于改变了强化学习在组合优化中的训练范式,提供了更稳定的训练信号。它天然契合RLHF的发展趋势,可与人类偏好结合,摆脱了reward shaping的繁琐,代码更轻,调参更少。

组合优化问题一直是工业界的经典难题。无论是旅行商问题(TSP),还是车辆路径规划(CVRP)和柔性车间调度(FFSP),一旦规模扩展,传统算法就会力不从心。

启发式搜索虽然仍在发挥作用,但面对高维度、高变化的实际任务,工程师们越来越希望借助 AI 模型“学会”策略。

强化学习自然成了候选方案,但现实很快打脸: 奖励信号逐渐减弱,导致模型训练中后期“学不会”; 动作空间极大,探索效率低、局部最优难逃。

最近,一篇来自中国移动、清华、北大等机构的 ICML 2025 论文,提出了一种名为 Preference Optimization(PO) 的新方法,为 RL 在组合优化领域注入了全新的思路。


与其学奖励,不如学“谁更强”

这篇论文的核心 idea 很清晰:

与其让模型去学习一个模糊的奖励函数,不如干脆让它学谁比谁强。

也就是说,把原本强化学习依赖的数值奖励 r(τ),转化成偏好信号 τ₁ ≻ τ₂,在训练中只关注解之间的优劣关系,而非精确的数值。

这个转变带来了两个明显的优势:


Preference Optimization 如何做到的?

PO 并不是简单改个损失函数,它是一个完整的偏好驱动强化学习框架,融合了以下三大关键机制:

1. 套上“重参数化”的帽子

首先,它将原始的 reward 函数重写为策略概率的函数:

r^(x,τ)=α⋅logπ(τ∣x)+C

这样一来,“谁更好”就变成了“谁的策略概率更高”,优化目标也从 reward learning 转为 policy preference learning。

2. 用经典偏好模型套公式

然后,使用类似 Bradley-Terry 的偏好模型,把“哪个解更好”转换成一个概率值:

P(τ1≻τ2)=σ(r^(x,τ1)−r^(x,τ2))

训练目标就成了一个对比学习式的最大 log-likelihood 问题,专注于强化相对排序,而非拟合数值。

3. 把本地搜索变成训练的一部分

很多 RL4CO 方法会在测试阶段用 2-Opt 等局部搜索做微调,但这会增加推理时间,不利于部署。

而 PO 在训练阶段就把本地搜索引入了 fine-tuning,用改进过的解 LS(τ) 与原始解 τ 构造偏好对,让模型提前学会优化动作

这不仅提升了解的质量,还不增加推理开销


实验结果:性能全面碾压

在经典的 TSP、CVRP 和 FFSP 数据集上,PO 被部署到多个主流强化学习求解器框架中(如 POMO、Sym-NCO、Pointerformer),并与传统的 REINFORCE 方法对比,结果非常抢眼:

方法TSP-100 GapCVRP-100 GapFFSP-100 Gap
POMO + REINFORCE0.15%1.76%2.58%
POMO + PO0.07%1.37%2.13%
POMO + PO + Finetune0.03%1.19%0.00%

更重要的是,这种优化方式模块化、结构无关,能直接迁移到 MatNet、Pointerformer、ELG 等各种结构中。


为什么这值得关注?

我认为这项工作的意义不仅仅在于性能,而在于它改变了强化学习在组合优化中的训练范式:

更进一步,从语言大模型的 DPO(Direct Preference Optimization),到本地优化的 PO,它们本质上都在告诉我们:偏好比 reward 更值得建模


未来展望:偏好优化 + 大模型的下一个方向?

传统强化学习对 reward 的依赖,是它在实际工程中落地的一大障碍。尤其是在大模型参与调度、推荐、运筹等复杂系统时,reward 函数往往难以定义,甚至根本不可观测。

而偏好优化则提供了一个更人性、更现实的通道:你不需要告诉模型“分数是多少”,只需要告诉它“哪个更好”。

如果我们能把调度逻辑、工程规则、用户习惯等 encode 成偏好函数,未来的大模型系统将有能力实现自动优化策略生成,甚至打通人类偏好与系统行动之间的链路。


如果你对强化学习、组合优化、偏好建模感兴趣,或者在做 AI 优化系统的工程落地,欢迎一起来讨论。

加微信 atar24,备注「偏好优化」,我拉你进群,我们一起聊聊 RL 到 PO 的转型路径,以及它在工程端的真正可能性。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

偏好优化 强化学习 组合优化 AI
相关文章