人工智能(AI)領域關注構建智能體,即能感知與行動的實際存在,而更智能的智能體現在其能選擇更優的行動方案。因此,“某些行動優于其他”的概念是 AI 的核心。獎勵(reward,源于心理學與神經科學的術語)表示提供給智能體與其實際行為質量相關的信號。強化學習(RL) 則是通過獎勵信號學習更成功行為的過程。
“從獎勵中學習”的理念由來已久,可以追溯到千年以來的動物訓練,后來,圖靈 1950 年的論文《計算機器與智能》(Computing Machinery and Intelligence)提出“機器能思考嗎?”的問題,并提出了基于獎勵和懲罰的機器學習方法。