AIGC Weekly 2024年09月20日
不要“教授”,要激励是Self-play RL的关键?Open AI 研究员分享
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 研究员 Hyung Won Chung 提出了 AI 训练的新范式,即“激励而非教授”。他认为,在开发通用人工智能时,我们应该避免直接“教授”模型特定技能或知识,而是创造一个环境或任务,激励模型自主学习。这种方法可以使模型发展出更通用、更灵活的能力,并能更好地应对复杂的任务。

😄 **激励而非教授:** 传统的机器学习方法往往直接“教授”模型特定的技能或知识,但在开发通用人工智能时,我们无法枚举所有需要的技能和知识。因此,Hyung Won Chung 提出了一种新的训练范式,即“激励而非教授”。这种方法不是直接教授模型特定技能,而是创造一个环境或任务,激励模型自主学习。通过这种方式,模型可以发展出更通用、更灵活的能力,并能更好地应对复杂的任务。

🤖 **以大语言模型为例:** 大语言模型(LLM)通常通过“下一个 token 预测”任务来训练。这个简单的任务实际上是一个强大的激励机制。模型为了更好地预测下一个 token,被迫学习语言结构、世界知识、推理能力等。这种方法可以看作是大规模的隐式多任务学习,模型面对数万亿种不同的预测情况,被迫发展出通用的问题解决能力。

💡 **激励结构的优势:** “激励而非教授”的训练范式具有许多优势,包括: * **更具可扩展性:** 随着计算资源增加,模型可以学习更复杂的能力。 * **更通用:** 学到的能力不局限于特定任务,可以泛化到新情况。 * **能力涌现:** 某些复杂能力(如推理)会在模型达到一定规模时突然出现。

🤔 **挑战与局限性:** 尽管“激励而非教授”的训练范式具有许多优势,但也存在一些挑战和局限性: * **设计有效的激励结构可能很困难,需要深入理解任务和期望的结果。** * **可能需要大量的计算资源和训练时间。** * **模型的行为可能不如直接教授那样可控或可预测。**

Open AI 研究员Hyung Won Chung放出了他去年的一次分享。可能刚好讲到了可能关于 o1 的核心训练思路。他的逻辑是不要“教授”,要激励。比如涉及 RL 时候常用来举例子的 AlphaGo。不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。核心内容背景介绍:传统的机器学习方法往往直接"教授"模型特定的技能或知识。但在开发通用人工智能时,我们无法枚举所有需要的技能和知识。计算能力正在指数级增长,为新的训练范式提供了可能。"激励"而非"教授"的核心思想:不是直接教授模型特定技能,而是创造一个环境或任务,激励模型自主学习。这种方法让模型能够发展出更通用、更灵活的能力。以大语言模型(LLM)为例:LLM主要通过"下一个token预测"任务来训练。这个简单的任务实际上是一个强大的激励机制。模型为了更好地预测下一个token,被迫学习语言结构、世界知识、推理能力等。隐式多任务学习:预测下一个token可以看作是大规模的隐式多任务学习。模型面对数万亿种不同的预测情况,被迫发展出通用的问题解决能力。显式信号vs诱导激励:显式信号:预测正确的下一个token。诱导激励:发展出理解语言、推理、组合概念等通用能力。激励结构的优势:更具可扩展性:随着计算资源增加,模型可以学习更复杂的能力。更通用:学到的能力不局限于特定任务,可以泛化到新情况。能力涌现:某些复杂能力(如推理)会在模型达到一定规模时突然出现。类比解释:"给人一条鱼":直接提供答案(硬编码)"教人钓鱼":教授特定技能"教人喜欢吃鱼并使其饥饿":创造激励,让人自主学习包括钓鱼在内的多种获取食物的方法为什么现在这种方法变得可行:计算能力的增长使得我们可以训练更大的模型。大模型已经达到了能够响应复杂激励结构的"智能阈值"。对未来AI研究的启示:应该更多地关注设计有效的激励结构,而不是直接编码知识或技能。需要重新思考如何评估和理解AI的能力,特别是那些可能在未来"涌现"的能力。潜在的广泛应用:这种思路不仅适用于语言模型,还可以应用于其他AI领域,如强化学习、机器人学等。挑战与局限性:设计有效的激励结构可能很困难,需要深入理解任务和期望的结果。可能需要大量的计算资源和训练时间。模型的行为可能不如直接教授那样可控或可预测。总的来说,"不要教授,要激励"的逻辑代表了一种新的AI训练范式。它强调创造环境和任务来引导AI自主学习,而不是直接灌输知识。这种方法虽然在短期内可能看起来效率较低,但在开发真正的通用人工智能方面可能更有前景。演讲 PPT:https://www.youtube.com/watch?v=kYWUEV_e2ss&ab_channel=HyungWonChung演讲视频:https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit#slide=id.g2885e521b53_0_0

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 训练 激励机制 通用人工智能
相关文章