2024圖靈獎揭曉，強化學習奠基者Andrew Barto與Richard Sutton獲獎

有電腦科學界諾貝爾獎之稱的ACM圖靈獎（ACM A.M. Turing Award），揭曉2024年得主，為強化學習（Reinforcement Learning）領域的兩位先驅，分別是Andrew Barto與Richard Sutton。兩位學者從1980年代開始，便逐步建立強化學習的核心理論與演算法框架，奠定了人工智慧代理透過經驗和獎勵訊號自主學習的基礎，開創了機器自主決策的現代應用。

Andrew Barto目前為美國麻州大學阿默斯特分校（University of Massachusetts Amherst）資訊與電腦科學系的榮譽退休教授，Richard Sutton則任職於加拿大亞伯達大學（University of Alberta）電腦科學系，同時兼任人工智慧新創公司Keen Technologies的研究科學家。

Andrew Barto與Richard Sutton最主要的貢獻，是從心理學與神經科學的概念出發，透過建立時序差分學習（Temporal Difference Learning）演算法，讓電腦在未知環境下，能根據累積的經驗自行調整行為，逐步提升決策品質。此外，他們也提出策略梯度法（Policy Gradient Method）以及以神經網路表達學習函式，而這些研究成果正是強化學習的實務基礎。他們於1998年共同出版的《Reinforcement Learning: An Introduction》，至今仍被視為該領域的權威著作，引用數超過75,000次。

事實上，強化學習的核心概念並非近年才出現，早在1950年代，電腦科學先驅Alan Turing以及Arthur Samuel就曾提出透過獎懲方式來訓練機器學習的方法。不過，一直到Andrew Barto與Richard Sutton於1980年代重新梳理並提出可行的數學框架與演算法之前，這項技術始終未能廣泛應用。

過去十年深度學習快速崛起，讓強化學習技術得以再度受到重視，例如Google旗下DeepMind研發的圍棋程式AlphaGo擊敗人類頂尖棋手，以及近期熱門的對話機器人ChatGPT中，強化學習扮演了關鍵角色。其他如晶片設計、機器人控制、網路壅塞控制，甚至供應鏈最佳化等領域，也已開始大規模導入強化學習技術。

ACM主席Yannis Ioannidis表示，Barto與Sutton的研究跨越了心理學、認知科學、神經科學等多個領域，他們奠定的強化學習基礎，不僅支撐了現今人工智慧的許多突破，也讓我們對人腦運作有了更深刻的理解。這次圖靈獎獎金由Google贊助為100萬美元。ACM圖靈獎從1966年開始，每年頒發給在電腦科學領域做出長遠貢獻的個人，得獎者多被視為當代科技進步的重要推手。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签