初探強化學習
強化學習, 學習筆記
強化學習(Reinforcemtn learning),又稱增強學習
強化學習的核心概念為:
透過與身處的環境互動得到獎勵,透過獎勵經驗來學會在環境中的各種情況該如何做決策
與機器學習的精神不同
機器學習與深度學習透過許多的資料去訓練機器該如何做分類或預測
得到的結果是一個明確的預估值,機器學習與深度學習並不負責做決策,而是將結果作為參考
決策權還是會寫在其他的邏輯或掌握在決策者身上
而強化學習的本質則是
自己去了解當前身處的環境並透過過去的學習經驗和這次行動所預期的【獎勵】來直接做出決策行動
因此我們利用強化學習
目的是為了訓練出一個【代理】,幫助我們完成某些任務或者做出某些決策
強化學習有三個很明顯的特色
- 其環境為封閉的
- 代理不會直接接受外來的命令
- 代理所做的動作都會有獎勵,它的目的是得到最大的獎勵
強化學習的基本組成與重點
在強化學習的環境當中除了環境以及代理本身以外
我們會定義出一些元素,分別為:策略(policy)、獎勵(reward、價值(value)以及環境模型(model)
1.策略
策略代表著代理的行為
當環境改變時,代理會了解到環境目前的狀態
而且代理也會有許多的動作可以選擇,也會從當中做出一項動作
這一系列的反應就稱之為:策略,它也是強化學習的核心
2.獎勵
如上面所提到,獎勵是隨著動作而來的
而代理的目的就是最終要獲得最大的獎勵
同時,代理也不能決定怎麼給獎勵
獎勵是隨著隨境一起訂立好的
3.價值
雖然動作會給出獎勵,但卻很難觀察出這個動作長遠來看還是不是好的
我肚子餓了,因此跑去買炸雞吃雖然當下吃了炸雞飽足感提升。
但長遠來看,我不能每次餓了都吃炸雞這樣會會身體不好
因此,我們會利用【價值】,來判斷動作是不是最好的
利用價值來估計總體可能會得的最大分數
價值比獎勵更重要
雖然獎勵是主要的,價值是透果計算推估而來的
但透過上述的定義,我們可以發現
整體來說我們要參考的是價值
因為價值能夠幫助我們最終獲得最大的獎勵(對未來有所估計)
價值評估也可以說是在強化學習當中最為重要的問題
4.環境模型
環境模型並不是一定要有的
它就是用來推測環境可能會作出的改變
模型是用來幫助我們規劃在實際發生問題之前的可能會產生的狀況
如果強化學習有用到環境模型
則稱之為model-based,反之,稱為model-free
model-free的學習方法就是不斷的試錯(trial-and-error)