橘子汽水铺 04月19日 15:13
如果人生是一场强化学习,你的奖励函数是什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了强化学习及相关知识,包括其与机器学习的区别,还讲述了人生如强化学习,奖励函数的探索,以及创业公司的生存之道等内容,干货满满。

🎓吴翼是强化学习领域专家,曾在OpenAI工作,现清华叉院助理教授

🤔强化学习像游戏,解决问题无标准答案,每步决策不受约束

💡人生奖励函数是什么是核心挑战,人应追求熵值最大化生活方式

🔍找到人生奖励函数关键在于主动探索和试错,创业公司机会在终局前

原创 橘子OrangeAI 2025-04-16 09:25 北京

财富?成就?还是内心的宁静?

创业之后,我一直在思考一个问题:

人在每次做职业选择的时候,最在意的要素是什么?

刚好最近收听了好友吴翼聊强化学习的播客,收获了很多强化学习的知识,也意外获得了对这个问题的一种答案。

这期播客干货满满,是近期听过的最有价值的播客。

Orange从中摘要了一些精华内容,分享给大家。

首先介绍一下吴翼,吴翼是研究强化学习领域的专家。
他曾在 OpenAI 工作,是一线的 AI 创业者,现在清华叉院当助理教授。

(他比这个介绍看起来要年轻得多,为此我找到了一张图。)

Hignlights

    RL 要解决的问题没有标准答案,每一步的具体决策也不受约束。

    我们只能不断尝试,接收反馈,调整策略,继续尝试。

    但人生的奖励函数是什么?财富?成就?内心的宁静?

    人是多样性驱动的,我们天生追求不同的体验,这才构成了多姿多彩的人生。 

    人还是要追求「熵值最大化」的生活方式。

    要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。

    创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。

机器学习和强化学习

吴翼首先讲述了机器学习(ML)和强化学习(RL)的区别。

传统的机器学习,好比训练一个学生去记住大量标准答案,比如看图片认猫狗、人脸和指纹识别。

这类问题通常有两个特点:

一步到位,答案明确。

但 RL 和 ML 有很大的不同,RL 就像是在玩一场游戏:

第一,游戏不是一步到位,而是在过程中有非常多的动作和决策。

比如我们玩一个打乒乓球的游戏,发球、接球、回球,每一个动作都是非标的,而且不同的选择会直接影响最终的结果。

第二,赢得一场游戏的方式可能有成千上万种,并没有唯一的标准答案。

RL 要解决的问题没有标准答案,每一步的具体决策也不受约束,但当完成所有决策后,会有一个反馈机制来评判它最终做得好还是不好。

强化学习就像游戏,也像极了真实的人生。

我们面临无数选择,都不是简单的是非对错,也没有人给我们“通关攻略”。

我们只能不断尝试,接收反馈,调整策略,继续尝试。


人生就是一场强化学习

人生就像一场强化学习,但又和强化学习有很大的不同。

吴翼指出了其中的关键差异:

标准的 RL 需要明确的“奖励函数”,比如游戏里“赢了”就是奖励。

但人生的奖励函数是什么?财富?成就?内心的宁静?

这或许是人生这场“游戏”最核心的挑战。

“我们不仅在玩游戏,更重要的,是要在过程中探索和定义,什么才是我们真正想要的‘奖励’。很多人可能努力了很久,最后发现找错了目标。”

他还观察到:传统的 RL 模型找到有效策略后会不断重复,因为它只在乎结果。但人不一样。

“人虽然也想赢,但可能会想换个赢法。比如踢球,总用单刀会腻,就想试试头球。”

人是“Diversity-driven”(多样性驱动)的,我们天生追求不同的体验,这才构成了多姿多彩的人生。 

很多他的学生在做职业选择时,倾向于选择“风险最低”路径。

但他觉得:

“人还是要追求‘熵值最大化’的生活方式。” 

什么是熵值最大化?

DeepSeek 的解释(为什么我第一时间就想到了 DeepSeek):

熵值最大化,指在有限的约束条件下,尽可能保持人生的多样性和可能性,避免过早固化或陷入单一路径。


找到自己人生的“奖励函数”

既然找到奖励函数或许是人生这场“游戏”最核心的挑战,那如何才能找到它?

吴翼认为,找到奖励函数的关键在于主动探索和试错。

他分享了自己的经历:

“如果当年我在伯克利读书时,没有主动去敲隔壁另一个导师的门,可能最终不会拐上强化学习这条路。”

他也提到,在他的研究中,比如做一个能和人玩《Overcooked》协作游戏的 AI,AI 就必须通过不断尝试和互动,来“猜测”人类玩家的意图,也就是它需要优化的“奖励函数”。

“要想找到自己的奖励函数,首先需要多主动探索,先和世界交手个三百回合。” 

尤其在年轻的时候,多尝试、多跳出舒适区看看,即使“试错”也是有价值的积累。

每个人的奖励函数各不相同,我让 Gemini 列举了一下各种可能性,你的奖励函数,是哪个?


创业公司与终局思维

播客里最后还讨论到了创业公司在大模型的技术快速进步中的生存之道。

既然 RL 如此重要,大模型公司也都会做,那创业公司是否有必要做 RL呢?

吴翼说,创业公司不该有终局思维。恰恰相反,创业公司的机会恰恰在终局到来之前。

现在 AI 发展得这么快,如果你真的去考虑终局,很可能会陷入一种无意义感,觉得世界上没有你的机会。

Manus 就是一个特别好的例子,在市场上还没有太多类似产品的时候,他们以最快的速度做出了一个可用的产品,抓住了机会。


结语

强化学习不仅仅是代码和算法,它更像是一种世界观,一种理解复杂系统、应对不确定性的方法论。

吴翼的分享,从技术前沿延展到人生哲学,“强化学习”、“奖励函数”、“熵值最大化”,是每个人都需要思考的重要命题。

人生这场独一无二的“强化学习”,没有预设的“最优策略”,也没有唯一的“奖励函数”。

最重要的是保持开放,主动去“和世界交手”,在试错中探索属于自己的价值和意义。


以上就是今天的全部分享,感谢关注橘子汽水铺,我们下次再见。

强烈推荐大家去听原版播客,相信你也会有自己的收获。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 人生哲学 奖励函数 创业公司
相关文章