landing_image landing_image landing_image landing_image landing_image landing_image landing_image
portrait

YX.S

成為一個厲害的普通人

post-image

針對強化學習,我們可以表示出如上圖中的概念

針對問題,我們可以定義出離散的時間t

並在每個 t 地進行過程表示出

S:狀態的集合,St:第 t 次的環境狀態

A:動作的集合,At:第 t 次代理人選擇出的動作

Rt:上一次(t-1次時)的獎勵

πt:從接收狀態到動作選擇之間的每個動作的機率,讓我們決定該做什麼動作,因為長期來看就是要透過策略讓總獎勵最大化(代理人的策略)

Gt:總獎勵(R1+R2+….RT,T=最終時間步驟)

 

如果代理人與環境的交互作用可以分出重複的若干序列時

我們會稱之為“情節(episodes)”

但大多時候,代理人與環境的作用無法分成情節

反而會有一些任務是會永遠持續的

但如果任務永久持續,T就會∞,會使得Gt無法計算

此時我們會修正公式,給定一個γ值,稱之為折扣率,讓代理可以盡量專注在現在的環境

而不會考慮太多未來
Gt

馬可夫性質

有關強化學習的問題,我們都會讓他符合馬可夫性質

而馬科夫性質是什麼?維基百科是這樣寫的:

 

一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件機率分布僅依賴於當前狀態;換句話說,在給定現在狀態時,它與過去狀態(即該過程的歷史路徑)是條件獨立的,那麼此隨機過程即具有馬可夫性質。具有馬可夫性質的過程通常稱之為馬可夫過程。

 

再來一次試著釐清代理人與環境的關係

我們的代理人是因為環境的變化,進而做出選擇,且儘可能地讓選擇的價值最大,而非去預測環境會怎麼變化

例如:玩牌時不會預測得到什麼牌,而是針對拿到的牌決定出牌策略

 

因此可以發現,強化學習的模型是吻合馬可夫性質的
而符合馬可夫性質的模型,我們會稱之為:

 

馬可夫決策過程(Markov decision process)

 

而特別的地方在於,馬可夫決策過程不止與狀態有關,也和動作有關

如果狀態跟動作是有限的那就稱為:

有限馬可夫決策過程(finite MDP,fMDP)

給定一組MDP,我們就可以預測下一組的動作

透過迭代,我們最終可以預測出所有可能的未來
Pr
在一個狀態 s 下所採取的動作 a ,並且會得到下一個狀態 s’ 與獎勵 r
Psr
我們稱之為狀態動作對(state-action pair)

 

價值函數(value function)

價值函數是描述在給定一個狀態下,代理做出的動作能有多好的估計

“多好”的意思為動作能夠獲得多少獎勵的期望

而我們可以用 vπ(s) 表示在狀態 s 底下的策略 π 所表示出的狀態(狀態價值函數)

意思是我們從狀態 s 依據策略 π 進行決策所會獲得的價值的期望

E符號表示為“期望”
vπ(s)

而我們用 qπ(s,a) 表示在狀態 s 以及策略 π 底下所選擇的動作(動作價值函數)
qπ(s,a)

而價值函數 vπ(s) 我們將 Gt 進行展開,展開到最後

就是貝爾曼方程式的表達式
Bellman

 

優化價值函數(Optimal Value Functions)

強化學習問題的本質在於決定出一個最好的策略

而價值函數定義出了策略的價值

因此我們可以有許多策略。

假設我們有兩個策略 π、π’

如果 vπ(s) ≥ vπ′(s) 我們可以說策略 π 是最好的

在每個狀態下我們可以說至少有一個策略 π 的價值 >= 其他的策略,表示為 π∗

每個狀態底下都會有一個最佳的動作存在,表示為 v∗
max_v

也有最佳的動作價值函數,q∗
max_q
對狀態動作對(state-action pair)來說

要表示出在狀態 s 底下選擇 a 的期望回報,我們可以將 q∗ 由 v∗ 表示出來
max_q2

 

參考:Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G. Barto)第3節