強化學習離軌策略：從失敗中獲得成功經驗 - 以追女孩為例 | 取樣率的數學意義

語言: CN / TW / HK

時間 2020-11-03 17:01:20 Piper蛋窩

想讓別人的小程式上架在自己的APP上？5行程式碼即可搞定 | 註冊即送大疆雲臺、華為手錶、櫻桃鍵盤！>>>

簡介：我一個朋友小拍，姐妹眾多，穩如老狗。姐妹們常疑惑：小拍同學 會吃會玩會聊天，上知美妝，下知韓綜，中曉穿搭，做事靠譜，為人頗有原則 ，竟然沒追成過一個女孩？要我說，這其實沒什麼可大驚小怪的，我剛認識小拍那陣子，他還是個鋼鐵小直男呢。用強化學習的角度看，小拍在這幾年做了很好的離軌策略（off-policy）學習，即從自己和別人“追女生”這個過程中學習經驗，無論結果成敗，都能有效地學到東西。本文我們就以“追女孩”為例，討論離軌策略，進而引申出“重要度取樣比”/“取樣率”的數學意義解釋（主要引用臺灣大學李巨集毅老師的觀點）。

本文目錄：

離軌策略：從失敗與別人的經驗中學習
重要度取樣比：修正“理解”的偏差

離軌策略：從失敗與別人的經驗中學習

在強化學習中， 我們要學到的/收斂逼近的控制策略，一定是最優的。 以追女生為例，小拍心裡的目的只有一個：用最好的方式追成功。

很顯然， 我們要學習的策略，一定是一個“能讓我們成功的策略” ，但問題是：

小拍 自己從未成功過，只有失敗的經驗 ，他可以從中學到什麼嗎？
別人的經驗或是成功的、或是失敗的，但 小拍不可能完全複製下來 ，小拍可以從中學到什麼嗎？

對於強化學習學習來講，上述兩個問題的答案都是肯定的。

在 Sutton 的經典書籍中，在 第五章第五節 首次提到 “離軌策略（off-policy）” 這個概念。

雖然第五章才被介紹，但 “離軌策略” 這個概念，卻幾乎是 強化學習實踐 中最為重要的概念之一，因為：

強化學習的 資料往往只能通過與環境互動得出 ，這造成了其資料獲取成本過大，且少之又少；
而書中 5.5 節前的簡單直接的迭代式，只能 一邊使用當前控制策略，一邊改進當前控制策略（同軌策略，on-policy） ，這容易造成一些沒有被探索過的方法，永遠都不被嘗試（固步自封），也會 導致我們無法使用之前的、別人的資料 。

小拍親口為我們做了類比：

同軌策略： 這次失敗了，這個方法不好，嗯，把這個方法改進一下，下次嘗試！
離軌策略： 我使用的方法，並不一定是我目前認為最好的方法；或者說，不管我用什麼方法，我都能從中學到東西，並且自我提升，尋找我的最優方法。如果別人有經驗，我也可以從中有所收穫！

或許你已經可以看出， 同軌策略是離軌策略的一種特殊形式 ，在設計演算法時， 如果其可以滿足離軌策略要求，其一定可以進行同軌策略的學習。

且在實踐中，我們 很難不使用 離軌策略：

在與環境的互動中，我們儘量不要使用當前的最優策略 （同軌策略學習方式） ，因為這樣我們會“謹小慎微”，不敢做出有創意的嘗試；
之前的資料要被複用，而之前的資料也是在不同於當前策略的策略下產生的。

重要度取樣比：修正“理解”的偏差

在 離軌策略 下，我們 不能使用“想當然”的迭代辦法，因為這會造成數學理論上的偏差 ，最終得到不良的學習效果。在使用不同於當前策略的策略獲取到的資料時，為了防止“理解”有偏差，我們需要用取樣率公式修正。

如果你更喜歡嚴謹的數學推導，可以檢視 Sutton 的《Reinforcement Learning: An Introduction Second Edition》。但是說實話，我今年一月份第一次學習這部分時，不是很懂 off-policy 與重要度取樣比這個概念。

如上，我在 CSDN 找到了我關於這部分的筆記，現在看來， 只是寫到了效果，當時還是沒有寫到“為什麼”。

後來學習了 李巨集毅老師的深度學習課程 ，李老師略帶著講了一些強化學習：李老師連 MDP 這個基礎假設都沒介紹，但是其一些關於強化學習的觀點卻讓我眼前一亮，尤其是 在介紹 PPO 前對取樣率從分佈角度上的介紹。

這裡，我們僅從 資料取樣 角度討論取樣率。

如上，簡單的推導後，我們找到了 p 取樣與 q 取樣的聯絡，且可以通過 E_{x~q} 輕易地得到 E_{x~p} 。而那個分式，不就是我們的取樣率嘛！

下面 從分佈例項 具體解釋一下。

圖源：李巨集毅老師課程錄屏

如上，f(x) 的值在資料分佈上用紅線表示。我們可以看出：如果基於 p(x) 對 f(x) 進行取樣，那最後得到的期望值應該是負值，因為 p(x) 總是傾向於在 f(x) 左側取樣（圖中的藍線，在左側很高）。

但是，我們目前只能基於 q(x) 取樣得到資料，而 q(x) 總是傾向於在 f(x) 右側取樣（圖中的綠線，在右側很高）。這就導致了取樣到的 f(x) 資料都是正的。如果不加取樣率，我們會錯誤的認為： p(x) 下采樣的 f(x) 期望是某個正值。

如何消除這種偏差呢？ 足夠多的取樣+取樣率公式 。

圖源：李巨集毅老師課程錄屏

如上，當我們進行了足夠多的取樣後： 儘管 q(x) 下很小的概率在左側獲取資料，但一旦我們獲取到，我們將通過取樣率“很好地”對其進行利用。

如上圖中左側的綠點，因為 q(x) 在左側值很小，而 p(x) 在左側值很大，則根據取樣率公式，我們給左側的資料一個很大的權重，這樣，我們便“修正了”偏差。在 足夠的取樣+取樣率 的加持下，我們可以正確地估計出： p(x) 下采樣的 f(x) 期望是某個負值。

我很重視我文章的正確性，有不同意見，歡迎給我發郵件： [email protected] 。

後記：這篇文章原本的標題是如何理解強化學習中『離軌策略的取樣率』？讓我們做一個簡單的推導，但後來成文時我靈光乍現： 離軌策略是從非最優中學習最優策略，這不正是從失敗中學習成功經驗嘛！ 結合我朋友小拍的個人經歷（有哪件事是我朋友一直在失敗，但卻一直在進步來著？） ...因此從強化學習的角度看，追過那麼多女孩，四捨五入小拍也算談過戀愛吧！不多說了兄弟姐妹們，關注公眾號「Piper蛋窩」點個在看再走吧~

「其他文章」