強化學(xué)習(xí)是機器學(xué)習(xí)中的一個領(lǐng)域,強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。其靈感來源于心理學(xué)中的行為主義理論,即有機體如何在環(huán)境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。這個方法具有普適性,因此在其他許多領(lǐng)域都有研究,例如博弈論、控制論、運籌學(xué)、信息論、仿真優(yōu)化、多主體系統(tǒng)學(xué)習(xí)、群體智能、統(tǒng)計學(xué)以及遺傳算法。在運籌學(xué)和控制理論研究的語境下,強化學(xué)習(xí)被稱作“近似動態(tài)規(guī)劃”(approximate dynamic programming,ADP)。在最優(yōu)控制理論中也有研究這個問題,雖然大部分的研究是關(guān)于最優(yōu)解的存在和特性,并非是學(xué)習(xí)或者近似方面。在經(jīng)濟學(xué)和博弈論中,強化學(xué)習(xí)被用來解釋在有限理性的條件下如何出現(xiàn)平衡。
![]()