Cnbeta 03月05日
2024年图灵奖公布:两位AI先锋因强化学习获奖
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

计算机协会(ACM)宣布将2024年图灵奖授予安德鲁·巴托和理查德·萨顿,以表彰他们在强化学习领域的开创性研究。他们的研究成果是AlphaGo和ChatGPT等突破性技术的基石。巴托和萨顿的研究始于1977年,他们试图用神经元享乐主义的理论来解释人类智力,并将其应用于AI领域,创造了强化学习。强化学习通过数字世界的“愉悦”与“痛苦”让AI系统学习,如今已成为人工智能崛起中不可或缺的一部分。他们认为,未来机器人将在真实世界中通过试错成长。

🏆巴托和萨顿因在强化学习方面的研究荣获2024年图灵奖,该奖项被誉为“计算机界的诺贝尔奖”,两人将分享100万美元奖金。

🧠他们的研究基于神经元享乐主义理论,即神经细胞努力将愉悦感最大化,痛苦感最小化,并将其应用于AI领域,从而创建了强化学习。

🤖强化学习通过“胜者愉悦-败者痛苦”的反馈机制,使AI系统从自我对弈中学习,例如AlphaGo战胜李世石,以及ChatGPT通过“人类反馈强化学习”优化应答。

🚀巴托和萨顿认为,强化学习的下一个阶段是控制物理躯体,未来机器人将在真实世界中像生物一样试错成长。

据《纽约时报》报道,全球最大的计算机专业人士协会计算机协会(ACM)周三宣布,将2024年图灵奖授予安德鲁·巴托(Andrew Barto)博士和理查德·萨顿(Richard Sutton)博士,以表彰他们在强化学习方面的研究。

巴托和萨顿

巴托目前是马萨诸塞大学荣誉退休教授。萨顿现在担任阿尔伯塔大学教授,他也是前DeepMind研究科学家。两人将分享图灵奖的100万美元奖金。图灵奖设立于1966年,常被称为“计算机界的诺贝尔奖”。

“他们是强化学习领域无可争议的先锋,”华盛顿大学计算机科学荣誉退休教授、艾伦AI研究所创始人兼CEO奥伦·埃特齐恩(Oren Etzioni)表示,“他们提出了关键理念,并且撰写了这方面的权威著作。”

过去十年,强化学习在人工智能(AI)的崛起中发挥了至关重要的作用,其中包括谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术。支撑这些系统的技术就源于巴托博士和萨顿博士的研究成果。

1977年,巴托在马萨诸塞大学阿默斯特分校担任研究员时,开始探索一种新的理论,即神经元的行为类似于享乐主义者。该理论的基本理念是,人类大脑由数十亿个神经细胞驱动,每个神经细胞都在努力将愉悦感最大化,把痛苦感最小化。

一年之后,另一位年轻的研究员萨顿也加入了他的行列。他们一起努力用这个简单的概念来解释人类的智力,并将其应用于AI领域。他们的研究成果便是强化学习,这是一种让AI系统从数字世界的“愉悦”与“痛苦”中学习的方法。

2016年AlphaGo战胜李世石震惊世界,这场人工智能的“登月时刻”背后,正是强化学习的威力体现。谷歌DeepMind团队核心成员大卫·席尔瓦,正是萨顿在阿尔伯塔大学培养的弟子。通过数百万次自我对弈,系统建立起“胜者愉悦-败者痛苦”的反馈机制,最终突破人类千年围棋智慧。

这种学习范式在ChatGPT等大语言模型中继续进化。2022年底,OpenAI通过“人类反馈强化学习”(RLHF)技术,让数百名标注员引导模型优化应答。当聊天机器人学会辨别优质回答获得“奖赏”,其对话能力产生质的飞跃。近期DeepSeek等企业更开发出自主强化学习系统,使AI能像解数学题般,通过试错掌握逻辑推理能力。

现年76岁的巴托教授指出:“通过强化学习控制物理躯体,将是自然演进的下个阶段。”目前任职于Keen Technologies的萨顿同样认为,当前基于文本的学习只是序章,未来机器人将在真实世界中像生物般试错成长。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图灵奖 强化学习 人工智能 AlphaGo ChatGPT
相关文章