谷歌 DeepMind 新研究强化思维链训练，让 AI 语言模型不再“纸上谈兵”

IT之家前天 14:03

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

谷歌DeepMind团队与LIT AI实验室合作，利用强化学习微调（RLFT）技术，显著提升了语言模型的决策能力。研究发现，现有语言模型在决策过程中存在“知行脱节”、贪婪选择和频次偏见等问题。RLFT技术通过模型自生成的思维链作为训练信号，评估每个推理步骤对应的行动奖励，从而优化模型决策。实验结果表明，该技术在多臂老虎机和井字棋等任务中均取得了显著进展，有效提高了模型执行最优动作的概率和胜率，缩小了推理与行动之间的差距。

💡 现有语言模型在决策方面存在三大缺陷：一是“知行脱节”，即模型能推导正确策略却无法执行；二是“贪婪选择”，倾向于短期高回报；三是“频次偏见”，小模型会机械重复常见动作。

🧠 传统的强化学习方法难以解决模型内在的推理-行动脱节问题。DeepMind团队创新采用强化学习微调技术（RLFT），以模型自生成的思维链作为训练信号。

⚙️ RLFT技术具体实施方式：模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列，通过蒙特卡洛基线评估和广义优势估计进行优化。

📈 在多臂老虎机测试中，2B参数模型的动作覆盖率提升了12个百分点；在井字棋实验中，模型对阵随机对手的胜率提升了5倍。

🌟 27B大模型在未微调时仅有21%会执行最优动作，经过RLFT后，有效缩小了推理与行动之间的差距，显著提升了模型决策的有效性。

IT之家 5 月 20 日消息，科技媒体 marktechpost 昨日（5 月 19 日）发布博文，报道称谷歌 DeepMind 团队联合约翰・开普勒林茨大学 LIT AI 实验室，通过强化学习微调（RLFT）技术，提升语言模型的决策能力。

IT之家援引博文介绍，基于海量互联网数据训练的语言模型已展现出超越文本处理的决策潜力，可以通过内部知识推理，在交互环境中做出行动选择。

不过这些语言模型在决策过程存在显著缺陷：模型能推导正确策略却无法执行（knowing-doing gap，纸上谈兵），过度偏好短期高回报选项（greediness，贪婪选择），较小模型还会机械重复常见动作（frequency bias，频次偏见）。

传统强化学习方法如 UCB 算法虽能平衡探索与利用，但难以解决模型内在的推理-行动脱节问题。

DeepMind 团队创新采用强化学习微调技术，以模型自生成的思维链作为训练信号，系统会评估每个推理步骤对应的行动奖励，促使模型优先选择逻辑自洽且实际高效的行动方案。

具体实施时，模型根据输入指令和行动-奖励历史生成包含推理过程与动作的序列，通过蒙特卡洛（Monte Carlo）基线评估和广义优势估计进行优化；无效动作会触发惩罚机制，而奖励塑造技术既保证输出格式规范，又保留探索空间。

在 10 臂的多臂老虎机（multi-armed bandit，MAB，有拥有 N 根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布）测试中，2B 参数模型的动作覆盖率提升 12 个百分点；面对 20 臂时改善幅度虽小但仍有意义，其频次偏见率从 70% 骤降至 35%。

井字棋实验中，模型对阵随机对手的胜率提升 5 倍，与最优蒙特卡洛树搜索代理的对战平均回报从-0.95 归零。值得注意的是，27B 大模型生成正确推理的概率达 87%，但未微调时仅 21% 会执行最优动作，该强化学习微调有效缩小了这一差距。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签