人工智慧 – Sarsa 算法

        State-Action-Reward-State-Action這個名稱清楚地反應了其學習更新函數依賴的5個值,分別是當前狀態S1,當前狀態選中的動作A1,獲得的獎勵Reward,S1狀態下執行A1後取得的狀態S2及S2狀態下將會執行的動作A2。我們取這5個值的首字母串起來可以得出一個詞SARSA。

它包含了三個參數:

  • 學習率 (Alpha)

               學習率決定了新獲取的信息覆蓋舊信息的程度。 Alpha為0時,表示讓代理不學習任何東西,Alpha為1時,表示讓代理只考慮最新的信息。

  •  折扣係數 (Gamma)

               折扣因素決定了未來獎勵的重要性。 Gamma為0時,會讓代理變得 "機會主義",只會考慮目前的獎勵,而當Gamma接近1時,會讓代理爭取長期高回報。如果折扣係數達到或超過 1,則Q的值可能會發散。

  •  初始條件 (Q(s0,a0))

               由於 SARSA 是一個迭代算法,所以在第一次更新發生之前,它隱式地假定初始條件。一個低 (無限) 初始值,也被稱為 "樂觀初始條件",可以鼓勵探索。無論發生什麼行動,更新規則導致它具有比其他替代方案更高的價值,從而增加他們的選擇概率。

Sarsa 決策:

     Sarsa 的決策部分和Q learning 一模一樣,因為我們使用的是Q 表的形式決策,所以我們會在Q 表中挑選值較大的動作值施加在環境中來換取獎懲。但是不同的地方在於Sarsa 的更新方式是不一樣的。

                                                                       
                                                                                                                                                  圖1 Sarsa 決策方式

Sarsa 更新行為準則:

       同樣,我們會經歷正在寫作業的狀態s1,然後再挑選一個帶來最大潛在獎勵的動作a2,這樣我們就到達了繼續寫作業狀態s2,而在這一步,如果你用的是Q learning,你會觀看一下在s2 上選取哪一個動作會帶來最大的獎勵, 但是在真正要做決定時,卻不一定會選取到那個帶來最大獎勵的動作,Q-learning 在這一步只是估計了一下接下來的動作值。而Sarsa 是實踐派,他說到做到,在s2 這一步估算的動作也是接下來要做的動作。所以Q(s1, a2) 現實的計算值,我們也會稍稍改動,去掉maxQ,取而代之的是在s2 上我們實實在在選取的a2 的Q 值。最後像Q learning 一樣,求出現實和估計的差距並更新Q 表裡的Q(s1, a2)。

                                                                       
                                                                                                                                                  圖2 Sarsa 更新行為

對比 Sarsa 和 Qlearning 算法:

       從算法來看,這就是他們兩最大的不同之處了。因為Sarsa 是說到做到型,所以我們也叫他on-policy,在線學習,學著自己在做的事情。而Q learning 是說到但並不一定做到,所以它也叫作Off-policy, 離線學習。
                                                                      
                                                                                                                                           圖3 Sarsa and Q-Learning算法

    Q learning 永遠都會選擇最近的一條通往成功的道路,不管這條路會有多危險。而Sarsa 則是相當保守,他會選擇離危險遠遠的,拿到寶藏是次要的,保住自己的小命才是王道。這就是使用Sarsa 方法的不同之處。

★博文內容均由個人提供,與平台無關,如有違法或侵權,請與網站管理員聯繫。

★文明上網,請理性發言。內容一周內被舉報5次,發文人進小黑屋喔~

評論