3月5日,美国计算机学会(ACM)宣布,将 2024 年 ACM A.M. 图灵奖授予强化学习之父 Richard Sutton 和他的博士导师 Andrew Barto,以表彰他们开发了强化学习(RL)的概念和算法基础。
ACM A.M. 图灵奖由 ACM 于 1966 年设立,专门奖励那些对计算机事业作出重要贡献的个人。“图灵奖”名称取自计算机科学先驱、英国科学家 Alan Turing,这个奖设立目的之一正是为了纪念这位伟大的科学家。图灵奖对获奖者要求极高,评奖程序极严,一般每年只奖励一名计算机科学家,只有极少数年度有两名在同一方向上做出贡献的科学家同时获奖。因此,图灵奖也是计算机界最负盛名、最崇高的一个奖项,有 “计算机界的诺贝尔奖” 之称。

RL 是人工智能(AI)中的关键概念,旨在通过奖励信号优化智能体(agent)的决策能力。这一理念源自动物训练,在 20 世纪 50 年代由 Alan Turing 和 Arthur Samuel 先后探索。然而,直到 20 世纪 80 年代,RL 的真正框架才由 Barto 和 Sutton 等人系统化,他们借鉴了 Markov 决策过程(MDP),使 agent 能够在未知环境中通过试错学习最优策略。Barto 和 Sutton 的贡献包括时间差分学习、策略梯度方法,以及结合学习与规划的 agent 设计。他们的著作《Reinforcement Learning: An Introduction》(1998) 成为该领域的标准教材,影响深远。
近年来,RL 结合深度学习取得突破,催生了深度强化学习技术。AlphaGo 的成功、ChatGPT 的 RLHF 训练、机器人操控技能学习,以及在网络拥塞控制、芯片设计、全球供应链优化等领域的应用,均展示了其强大潜力。此外,RL 还促进了神经科学研究,为多巴胺系统的理解提供了新的视角。
关于获奖者
Andrew Barto 和 Richard Sutton 的合作于 1978 年在马萨诸塞大学阿姆赫斯特分校开始,当时 Barto 是 Sutton 的博士和博士后导师。
Barto 是马萨诸塞大学阿姆赫斯特分校信息与计算机科学系名誉教授。他于 1977 年在该校作为博士后研究助理开始了他的职业生涯,先后担任过副教授、教授和系主任等各种职务。他在密歇根大学获得了数学学士学位以及计算机与通信科学的硕士和博士学位。Barto 收获的奖项包括马萨诸塞大学神经科学终身成就奖、国际人工智能联合会议(IJCAI)卓越研究奖和电气电子工程师协会(IEEE)神经网络学会先锋奖。他还是 IEEE、美国科学促进协会(AAAS)会士。
Sutton 是阿尔伯塔大学计算机科学教授、Keen Technologies 研究科学家,同时也是阿尔伯塔机器智能研究所(Amii)首席科学顾问。Sutton 曾在 2017 年至 2023 年期间担任 DeepMind 杰出研究科学家。在加入阿尔伯塔大学之前,他曾于 1998 年至 2002 年在 AT&T 香农实验室人工智能部门担任首席技术研究员。Sutton 曾获得 IJCAI 卓越研究奖、加拿大人工智能协会终身成就奖,以及马萨诸塞大学阿默斯特分校杰出研究成就奖。他是英国皇家学会会士、AAAI 会士及加拿大皇家学会会士。
参考链接:
https://www.acm.org/media-center/2025/march/turing-award-2024
(王豫峰编译)