什么是強化學習？從獎勵中學習

2025-03-06 17:47:21

字體：大中小

來源：轉載

供稿：網友

人工智能（AI）領域關注構建智能體，即能感知與行動的實際存在，而更智能的智能體現在其能選擇更優的行動方案。因此，“某些行動優于其他”的概念是 AI 的核心。獎勵（reward，源于心理學與神經科學的術語）表示提供給智能體與其實際行為質量相關的信號。強化學習（RL）則是通過獎勵信號學習更成功行為的過程。

“從獎勵中學習”的理念由來已久，可以追溯到千年以來的動物訓練，后來，圖靈 1950 年的論文《計算機器與智能》（Computing Machinery and Intelligence）提出“機器能思考嗎？”的問題，并提出了基于獎勵和懲罰的機器學習方法。

盡管圖靈報告了一些初步的相關實驗，以及亞瑟?塞繆爾（Arthur Samuel）在 20 世紀 50 年代開發了通過自我對弈學習的跳棋程序，但此后數十年，在人工智能這一方向進展甚微。20 世紀 80 年代初，受心理學啟發，巴托與博士生薩頓開始將強化學習定義為通用問題框架。

他們借鑒馬爾可夫決策過程（MDPs）的數學基礎，其中智能體在隨機環境中決策，每次狀態轉移后接收獎勵信號，以最大化長期累積獎勵為目標。與傳統 MDP 理論假設環境完全已知不同，強化學習框架允許環境與獎勵是未知的。這種最小化信息需求與 MDP 的通用性結合，使強化學習算法適用于廣泛問題。

巴托和薩頓與其他研究人員共同開發了強化學習的許多基本算法。他們的重要貢獻之一是——時序差分學習（Temporal Difference Learning），它在解決獎勵預測問題方面取得了重要進展；以及策略梯度方法（policy-gradient methods）和將神經網絡作為表示已學習功能的工具使用。他們還提出了結合學習和規劃的智能體設計，證明了將環境知識作為規劃基礎的價值。

此外，他們的經典教材《強化學習：導論》（Reinforcement Learning: An Introduction，1998）被引用超 7.5 萬次，至今仍是該領域標準參考資料。在這本書的影響下，成千上萬的研究者能夠理解并參與到這個新興領域，并繼續激發今天計算機科學領域的大量重要創新。

盡管巴托和薩頓的算法誕生于數十年前，但其與深度學習算法的結合（由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創），從而導致了深度強化學習的出現，在過去 15 年取得多項重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰勝了最優秀的人類圍棋選手。最近一項重大成就則是聊天機器人 ChatGPT 的開發。ChatGPT 是一個經過兩階段訓練的大型語言模型（LLM），其中第二個階段采用了一種被稱為基于人類反饋的強化學習（RLHF）的技術，以獲取人類的期望。

此外，強化學習也在許多其他領域取得成功。一個引人注目的例子是在機器人操作和解決物理（三階魔方）問題中的運動技能學習，這表明有可能在模擬中進行所有強化學習，最終在截然不同的現實世界中取得成功。其他領域包括網絡擁塞控制、芯片設計、互聯網廣告、全球供應鏈優化、提升聊天機器人的行為和推理能力，甚至改進計算機科學中最古老的問題之一——矩陣乘法的算法。

最終，一項部分受神經科學啟發的技術也予以了回報。包括巴托在內的近期研究顯示，人工智能領域開發的特定強化學習算法為有關人類大腦多巴胺系統的大量發現提供了最佳解釋。

ACM 主席雅尼斯·約安尼迪斯（Yannis Ioannidis）表示：“巴托和薩頓的研究成果表明，將多學科方法應用于我們領域長期存在的挑戰具有巨大潛力。從認知科學、心理學到神經科學等研究領域啟發了強化學習的發展，這為人工智能的一些最重要進展奠定了基礎，并讓我們對大腦的工作原理有了更深入的了解。巴托和薩頓的工作并非我們已經跨越的墊腳石。強化學習仍在不斷發展，并為計算及其他眾多學科的更進一步提供了巨大潛力。授予他們本領域的最高榮譽，實至名歸。”

谷歌高級副總裁杰夫·迪恩（Jeff Dean）指出：“在 1947 年的一次演講中，艾倫·圖靈曾表示‘我們需要的是一臺能夠從經驗中學習的機器’。由巴托和薩頓開創的強化學習直接回應了圖靈的這一挑戰。他們的工作在過去幾十年里一直是人工智能領域取得進展的關鍵所在。他們開發的工具仍然是人工智能熱潮的核心支柱，并促成了重大進步，吸引了大批年輕研究人員，并帶來了數十億美元的投資。強化學習的影響還將持續到未來很長一段時間。谷歌很榮幸贊助圖靈獎，并向那些塑造了改善我們生活的技術的人士致敬。”

上一篇：試述締約過失責任的構成條件

下一篇：返回列表