DeepMind 釋出強化學習通用演算法 DreamerV3,AI 成精自學撿鑽石

語言: CN / TW / HK

內容一覽:強化學習是多學科領域的交叉產物,其本質是實現自動決策且可做連續決策。本文將介紹 DeepMind 最新研發成果:擴大強化學習應用範圍的通用演算法 DreamerV3。 關鍵詞:強化學習 DeepMind 通用演算法

北京時間 1 月 12 日,DeepMind 官方推特發文,正式官宣 DreamerV3,這是首個能在遊戲「我的世界」(Minecraft) 中不參考人類資料,就能從頭開始收集鑽石的通用演算法,解決了 AI 領域中的又一重要挑戰。

​DeepMind 在推特官宣 DreamerV3

強化學習擴充套件成問題,發展還需通用演算法

強化學習使得計算機可以通過互動解決某一任務,如 AlphaGo 在圍棋比賽中戰勝人類,OpenAI Five 在 Dota 2 中戰勝業餘人類玩家。

OpenAI Five 在比賽中戰勝人類玩家研發團隊與人類玩家合照

然而,要想將演算法應用於新的應用場景,如從棋盤遊戲轉到視訊遊戲或機器人任務,就需要工程師不斷開發專門的演算法 (specialized algorithms),如連續控制、稀疏獎勵、影象輸入以及 spatial environments 等。

這要求大量的專業知識和計算資源來微調演算法,極大阻礙了模型的擴充套件。建立無需調優就能學習掌握新 domain 的通用演算法,成為擴大強化學習應用範圍、解決決策問題的重要途徑。

由此,由 DeepMind 和多倫多大學聯合研發的 DreamerV3 應運而生。

DreamerV3:基於世界模型的通用演算法

DreamerV3 是一種基於世界模型 (World Model) 的通用和可擴充套件的演算法,能在固定超引數的前提下,應用於廣泛域 (domain),比專門的演算法更出色。

這些 domain 包括連續動作 (continuous action) 和離散動作 (discrete action),視覺輸入和低維輸入,2D 世界和 3D 世界,不同的資料預算、獎勵頻率和獎勵尺度等。

DreamerV3 通用演算法與專門演算法效能對比

DreamerV3 由 3 個從回放經驗 (replayed experience) 中同時訓練,且不共享梯度的神經網路組成:

1、world model:預測潛在動作的未來結果

2、critic:判斷每種情況的 value

3、actor:學習如何使有價值的情況成為可能

DreamerV3 的訓練過程

如上圖所示,world model 將 sensory input 編碼為一個離散表徵 zt。zt 由一個具備 recurrent state ht 的序列模型預測得出,並給出動作 at。input 被重構為學習訊號 (learning signal) 進而 shape 表徵。

actor 和 critic 從 world model 預測的抽象表徵 trajectory 中學習。

為了更好地適應跨域任務,這些元件需要適應不同的訊號強度 (signal magnitudes),並在其目標中穩健地平衡 terms。

工程師在超過 150 個固定引數的任務上對 DreamerV3 進行了測試,並與文獻中記載的最佳方法進行比較,實驗表明,DreamerV3 對於不同 domain 的任務,均具備較高通用性和可擴充套件性。

​基準概覽  所有 agent 都是在 NVIDIA V100 GPU 上訓練

DreamerV3 在 7 個基準測試中都取得了優異成績,並在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具備一定的侷限性,例如當 environment steps 在 1 億以內時,演算法並不能像人類玩家一樣,在所有場景中都撿到鑽石,而是偶爾撿到。

站在巨人的肩膀上,回顧Dreamer家族發展史

一代目:Dreamer

釋出時間:2019 年 12 月

參與機構:多倫多大學、DeepMind、Google Brain

論文地址:https://arxiv.org/pdf/1912.01603.pdf

演算法簡介:

Dreamer 是一個強化學習 agent,可以僅通過 latent imagination 從影象中解決 long-horizon 任務。

它基於模型預測的反向傳播,來利用 world model 實現高效的行為學習。在 20 個極具挑戰性的視覺控制任務中,Dreamer 在資料效率、計算時間和最終效能方面均超過了當時的主流方法。

Dreamer 與當時主流方法的效能比較

Dreamer 繼承了 PlaNet 的資料效率,同時超過了當時最好的 model-free agent 的漸近效能 (asymptotic performance)。5×106 個 environment step 後,Dreamer 在各個任務中的平均效能達到了 823,而 PlaNet 僅為 332,最高的 model-free D4PG agent 在 108 步之後為 786。

二代目:DreamerV2

釋出時間:2020 年 10 月

參與機構:Google Research、DeepMind、多倫多大學

論文地址:https://arxiv.org/pdf/2010.02193.pdf

演算法簡介:

DreamerV2 是一個強化學習 agent,可以從 world model 緊湊隱空間 (compact latent space) 的預測中學習行為。

注:該 world model 使用離散表徵,並且與策略分開訓練。

DreamerV2 是第一個通過在單獨訓練的 world model 中學習行為,在 Atari 基準的 55 項任務中達到人類水平的 agent。在相同的計算預算和 wall-clock time 情況下,DreamerV2 達到了 2 億幀,超過了頂級 single-GPU agents IQN 及 Rainbow 的最終效能。

此外,DreamerV2 也適用於有連續動作的任務,它學習了一個複雜的類人型機器人的 world model,只通過畫素輸入就解決了站立和行走問題。

​玩家在 Atari 基準 55 個遊戲的正則化中位數得分

推特網友評論區帶頭玩梗

對於 DreamerV3 的誕生,不少網友也在 DeepMind 推特留言區抖起了機靈。

解放人類,再也不用玩「我的世界」了。

別光顧著玩遊戲了,乾點正事兒吧!@DeepMind 和 CEO Demis Hassabis

「我的世界」終極 BOSS 末影龍瑟瑟發抖中。

近年來,遊戲「我的世界」已成為強化學習研究的一個焦點,圍繞在「我的世界」中進行鑽石收集的國際競賽已經舉辦多次。

在沒有人類資料的情況下解決這一挑戰,被廣泛認為是人工智慧的一個里程碑,因為在這個程式生成的開放世界環境 (open-world environment) 中,獎勵稀少、探索困難、時間跨度長,這些障礙的存在使得先前的方法都需要基於人類資料或教程。

DreamerV3 是第一個從 0 開始在「我的世界」中完全自學收集鑽石的演算法,它使得強化學習的應用範圍進一步擴大,正如網友們所說,DreamerV3 已經是個成熟的通用演算法了,該學會自己掛機升級打怪,跟終極 BOSS 末影龍對線了!

關注 HyperAI超神經,瞭解更多有趣的 AI 演算法、應用;還有定期更新教程,一起學習進步!