DeepMind用新AI超越自己：提速200倍，在所有雅達利遊戲上勝過人類

語言: CN / TW / HK

時間 2022-09-20 14:41:09 量子位

秒殺兩年前的Agent57

羿閣發自凹非寺

量子位 | 公眾號 QbitAI

DeepMind又對 雅達利遊戲 下手了！

這次，他們最新推出的智慧體 MEME ，在效果不變的前提下，比兩年前的Agent57 提速了200倍 ！

Agent57，是DeepMind在2020年搞的一個智慧體，史上首次在所有57個雅達利遊戲中超過了人類基準表現。

但它有一個致命缺陷是效率低：需要近 800億幀 的資料訓練才能實現。

現在，MEME的出現完美解決了這一問題。

有網友看完表示：這就是真正的樣本高效吧。

話不多說，趕緊來一睹為快吧。

新的智慧體：MEME

Agent57，作為首個在所有雅達利遊戲中超越人類基準表現的智慧體，效能上已足夠先進。

但問題是，要想達到這一目標，背後需要780億幀的龐大的經驗訓練，這在時間和成本上都是一筆大開支。

因此，以Agent57為起點，DeepMind採用了一系列不同的策略，來實現訓練效率上的提升。

他們調查了在減少資料制度時遇到的一系列不穩定因素和瓶頸，並提出了有效的解決方案，最後建立一個更加強大和高效的智慧體：MEME。

新的MEME智慧體主要針對Agent57的4個方面進行改善，分別是：

為了達到這四個目標，DeepMind採取了以下方法，與上述四點相對應。

A1.用線上網路進行引導；

A2.有公差的目標計算；

B1.損失和優先權歸一化；

B2.交叉混合訓練；

C1.無歸一化的軀幹網路；

C2.帶有綜合損失的共享軀幹；

D.通過策略提煉的魯棒行為。

這些方法旨在提高Agent57的資料效率，但這種效率的提高不能以犧牲終端效能為代價。

因此，為了檢驗經過上述步驟的智慧體MEME的效率和效能，研究團隊分別在2億、10億、200億、900億幀環境進行了訓練。

通過下圖可以直觀的看出，新智慧體MEME在3.9億幀時就超過了人類基準，比Agent57快了兩個數量級，並且在將引數量從90B減少到1B的情況下，取得了類似的最終表現。

可以說相比Agent57而言，MEME既提升了效率，又保持了效能。

MEME的研究團隊來自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的論文作者。

值得一提的是，Steven Kapturowski在兩篇論文中都是一作。

他畢業於美國科羅拉多大學博爾德分校，曾在蘋果、微軟、Glassdoor等公司工作過，現在是DeepMind的一名高階研究工程師。

參考連結：

[1]http://arxiv.org/pdf/2209.07550.pdf

[2]http://arxiv.org/pdf/2003.13350.pdf

[3]http://www.linkedin.cn/incareer/in/stevenkapturowski

「其他文章」