DeepMind 首席科學家 Oriol Vinyals 最新訪談：通用 AI 的未來是強互動式元學習

語言: CN / TW / HK

時間 2022-08-02 16:28:35 AI科技評論

整理｜李梅

編輯｜陳彩嫻

自 2016 年 AlphaGo 在圍棋中擊敗人類以來，DeepMind 的科學家一直致力於探索強大的通用人工智慧演算法，Oriol Vinyals 就是其中之一。

Vinyals 於 2016 年加入 DeepMind，目前任首席科學家，領導深度學習小組。此前他曾在 Google Brain 工作。他的博士就讀於加州大學伯克利分校，曾獲得 2016 年 MIT TR35 創新者獎。他在 seq2seq、知識蒸餾以及 TensorFlow 方面的研究成果，已經被應用於谷歌翻譯、文轉到語音和語音識別等產品中。他的文章被引用超過 16 萬次。

最近，Oriol Vinyals 做客 Lex Fridman 的播客節目，談論了他對深度學習、通才智慧體 Gato、元學習、神經網路、AI 意識等方向的一些看法。Vinyals 認為：

擴大模型規模能夠增強智慧體多模態之間的協同作用，模組化的模型則是有效擴大模型規模的一種方式，通過權重複用可以不必從頭訓練模型；

未來的元學習將更注重智慧體與環境的互動學習；

Transformer 內建的歸納性注意偏差使得它比其他神經網路架構更強大；

通用的、大規模的模型或智慧體在技術上的成功關鍵是：資料工程、部署工程和建立基準。

現有的 AI 模型離產生意識還很遙遠，生物大腦遠比計算大腦更復雜，人類的思維運作方式可以啟發演算法層面的研究；
未來 AI 系統有可能具備與人類同等水平的智慧，但是否能超越人類水平並不確定。

下面 AI 科技評論對訪談內容作了不改變原意的編輯整理：

通用演算法

Fridman：在我們有生之年能否建立一個 AI 系統、在這次談話中取代我們作為採訪者或被採訪者？

Vinyals： 我想問的是，我們想要實現那樣的願望嗎？我很開心看到我們正在使用非常強大的模型，並覺得它們跟我們越來越接近，但問題是，如果沒有了談話中人性化的一面，它還會是一個有趣的人工製品嗎？可能不會。例如，在星際爭霸中，我們可以建立智慧體來玩遊戲、自我對抗，但最終人們關心的是，當競爭對手是人類時，智慧體要如何做。

所以毫無疑問，有了 AI，我們會更強大。比如你可以從 AI 系統中篩選出一些非常有趣的問題，在語言領域，我們有時將其稱為“Terry Picking”。同樣，如果我現在有這樣的工具，你問一個有趣的問題，特定系統會選擇一些單詞來組成答案，但這並不是很讓我興奮。

Fridman：如果引起人的興奮本身就是這個系統的目標函式的一部分呢？

Vinyals：在遊戲中，當你設計演算法時，你可以將獲勝作為目標寫入獎勵函式。但如果你能衡量它並針對它進行優化，那還有什麼令人興奮的呢？這可能就是我們玩電子遊戲、上網互動、觀看貓咪視訊的原因。的確，對強化學習中使用的那些明顯的獎勵函式之外的獎勵進行建模，是非常有趣的。

另外，AI 在特定方面確實取得了一些關鍵進展，例如，我們可以根據網際網路上的接受度來評估對話或資訊是否可信。然後，如果可以自動化地學習一個函式，你就能更輕鬆地進行優化，然後進行對話以優化一些不太顯眼的資訊，如興奮度。構建一個至少一方面完全由興奮獎勵函式驅動的系統會很有趣。

但顯然，系統仍然包含很多來自系統構建者的人性元素，而且為興奮度打上的標籤是來自於我們，很難去計算興奮度。據我瞭解，還沒有人做這樣的事情。

Fridman：也許系統還需要有強烈的身份認同感。它會有記憶，能夠講述它過去的故事。它可以從有爭議的觀點中學習，因為網際網路上有很多關於人們持有什麼觀點的資料，以及與某種觀點相關聯的興奮度。系統可以從中建立一些東西，不再是優化語法和真實度，而是優化句子在人性上的一致性。

Vinyals：從神經網路、人工智慧的構建者角度來看，通常你會嘗試將你討論過的許多有趣的主題對映到基準測試中，然後也對映到關於這些系統當前如何被構建、如何學習、從什麼資料中學習、學習什麼的實際架構中，這裡我們要談的是數學函式的權重。

就當前遊戲的發展狀態而言，我們需要什麼才能達到這些人生體驗，比如恐懼？在語言方面，目前我們幾乎看不到進步，因為我們現在做的是，獲取大量的線上人類互動，然後提取序列，包括一連串的單詞、字母、影象、聲音、模態，接著再試著學習一個函式，通過神經網路來將看到這些序列的可能性加以最大化。

我們目前訓練這些模型的一些方式，有希望能夠發展出你所說的那種能力。其中之一是智慧體或者模型的生命週期，模型從離線資料中學習到這些，所以它只是被動地進行觀察和最大化。就像在一個山地景觀中，在到處都是人類互動資料的地方，提高權重；在沒有資料的地方，降低權重。模型通常不會體驗到自身，它們只是資料的被動觀察者。然後，我們讓它們在我們與之互動時生成資料，但這極大地限制了它們可能正在優化或進一步優化權重時實際經歷到的體驗。但我們甚至還沒有到達這樣的階段。

在 AlphaGo、SlphaStar中，我們部署模型，讓它與人類比賽，或與人類互動（比如語言模型），以此來訓練模型。它們並不是持續訓練的，它們沒有根據從資料中學到的權重來學習，它們不會持續改進自身。

但如果你考慮一下神經網路，這是可以理解的，它們可能無法從嚴格意義上的權重變化中學習，這與神經元如何互連以及我們在一生中如何學習有關。但是，當你與這些系統交談時，對話的上下文確實存在於它們的記憶體中。這就像你啟動一臺電腦，它的硬盤裡有很多資訊，您也可以訪問包含所有資訊的網際網路。同時也有記憶體，我們把它看作是智慧體的指望所在。

目前儲存非常有限，我們現在談論的是我們所擁有的大約 2,000 個單詞，超出這個數字後，我們就開始遺忘我們所見到，所以一些短期的連貫性是存在的。如果智慧體具有連貫性，那麼如果你問「你的名字是什麼」，它就可以記住這句話，但它可能會遺忘超出 2,000 個單詞的上下文。

所以從技術上講，人們對於深度學習的期望有這樣一種限制。但我們希望基準測試和技術能夠擁有不斷積累的記憶體驗，離線學習的方式顯然很強大。我們已經取得了很大的進展，我們已經再次看到了這些模仿的力量或者讓這些關於世界的基本知識被納入權重的網際網路規模，但是經驗是很缺乏的。

事實上，當我們與系統交談時，我們甚至都不訓練它們，除非它們的記憶體受到影響。這是動態的部分，但它們的學習方式與你我從出生就開始的學習方式不同。所以關於你的問題，我這裡提到的一點就是，記憶和體驗與僅僅觀察和學習世界的知識不同。

我看到的第二個問題是，我們是從頭開始訓練所有這些模型。好像我們不從頭開始訓練模型、從最開始的地方找到靈感，就會有什麼東西缺失了一樣。每隔幾個月，就應該有某種方式可以讓我們像培養一個物種一樣訓練模型，而宇宙中的許多其他元素都是從以前的迭代中構建的。從純粹的神經網路的角度來看，很難不丟棄以前的權重，我們是從資料中學習並更新這些權重。所以感覺好像少了點什麼，我們最終可能會找到它，但它會是什麼樣子還不是很清楚。

Fridman：從頭開始訓練似乎是一種浪費，每次我們解決圍棋和國際象棋、星際爭霸、蛋白質摺疊問題時，肯定有一些方法可以重複使用權重，因為我們擴充套件了巨大的新神經網路資料庫。所以我們如何重複使用權重？如何學習提取什麼是可泛化的以及如何摒棄其他無用的東西？如何更好地初始化權重？

Vinyals：深度學習的核心有一個絕妙的想法，那就是單個演算法解決所有任務。隨著越來越多的基準的出現，這個基本原則已經被證明是不可能的事情。也就是說，你有一個空白的計算大腦一樣的初始化神經網路，然後你在監督學習中餵給它更多東西。

理想情況是，輸入什麼樣的期望，輸出就應該什麼樣。比如影象分類，可能是從 1000 個類別中選出一個，這就是影象網路。許多問題都可以通過這種方式映射出來。還應該有一種通用的辦法，對於任何給定的任務，你都可以不做很多改變、不加思考就能使用，我認為這是深度學習研究的核心。

我們還沒有找到這個辦法，但如果人們能發現更少的技巧（一種通用演算法）來解決重要問題，那將很令人興奮。在演算法層面上，我們已經有了一些通用的東西，就是在大量資料上訓練出非常強大的神經網路模型的公式。

而在很多情況下，你需要考慮一些實際問題的特殊性。蛋白質摺疊問題很重要，已經有一些基本的方法，比如 Transformer 模型、圖神經網路、來自 NLP 的見解（如 BERT），以及知識蒸餾。在這個公式中，我們還需要找到一些蛋白質摺疊問題所特有的東西，這非常重要，我們應該解決它，有可能在這個問題中學到的知識將應用到深度學習研究者的下一個迭代中。

也許在過去的 23 年裡，在元學習這個領域，通用演算法已經有了一些進展，主要是產生自語言領域的GPT-3。這個模型只訓練一次，而且它並不侷限於翻譯語言或只知道根系一個句子的情感，這些實際上可以通過提示來教給它，提示本質上是給它們展示更多例子。我們是通過語言來進行提示的，語言本身是我們互相學習的很自然的方式。也許它會先問我一些問題，然後我告訴它應該做這個新任務。你不需要從頭開始重新訓練它。我們已經通過小樣本學習看到了一些神奇的時刻，在只有語言的模態中用語言進行提示。

在過去兩年裡，我們看到這擴充套件到語言之外的其他模態，添加了視覺、行動和遊戲，並取得了很大的進步。這可能是實現單一模型的一個方式。問題是這種模型很難增加權重或容量，但它的確很強大。

目前的進展出現在基於文字的任務或者視覺風格分類的任務中，但應該有更多的突破。我們有一個很好的基線，我們想要基準向通用人工智慧發展，整個社群正在向這個方向靠攏，這很好。讓我興奮的是，深度學習的下一步是如何讓這些模型更強大？如何訓練它們？如果它們必須進化，如何「培育」它們？當你教它任務時，它們應該改變權重嗎？還有很多問題需要回答。

通才智慧體 Gato

Fridman：你能解釋一下你這條推特中的“Meow”和貓的表情嗎？以及 Gato 是什麼？它是如何工作的？涉及的是哪種神經網路？如何訓練？

Vinyals：首先，Gato 這個名字跟其他 DeepMind 釋出的一系列模型一樣，是以動物的名字命名。大序列模型剛開始只有語言，但我們正在擴充套件到其他模態。Gopher（囊地鼠）、Chinchilla（南美栗鼠/龍貓）這些都是純語言模型，最近我們還發布了涵蓋視覺的 Flamingo（火烈鳥）。Gato 則添加了視覺和動作模態，像上、下、左、右這樣的離散動作，可以很自然由詞語、對映到強大的語言序列模型中。

在釋出 Gato 之前，我們討論了我們應該選擇哪種動物來命名，我想主要考慮的是 general agent（通用智慧體），這是 Gato 所特有的屬性，“gato”在西班牙語中是“貓”的意思。

Gato 的基本原理與許多其他工作並沒有什麼不同。它是一個 Transformer 模型，一種迴圈的神經網路，涵蓋多種模態，包括視覺、語言、動作。訓練時的目標是它能夠預測序列中的下一個是什麼，如果用來訓練的是動作序列，那麼就是預測下一個動作是什麼。字元序列、影象序列也是類似。我們把它們都看作是位元組，模型的任務是預測下一個位元組是什麼，然後你可以將這個位元組理解為一個動作，並在遊戲中使用這個動作；你也可以將其理解為一個詞，並在與系統的對話中把這個詞寫下來。

Gato 的輸入包括影象、文字、視訊、動作，以及一些來自機器人的感知感測器，因為機器人也是訓練內容之一。它輸出的是文字和動作，它不輸出影象，我們目前是設計了這樣的輸出形式，所以我說 Gato 是一個開始，因為還有更多的工作要做。本質上，Gato 是這樣一個大腦，你給它任何序列的觀察和模態，它會輸出序列的下一步。然後你開始你進入下一個並繼續預測下一個，以此類推。

現在它不僅僅是一個語言模型，你可以像和 Chinchilla、Flamingo 聊天一樣跟 Gato 聊天，但它同時是個智慧體，它在各種各樣的資料集上被訓練成是通用的，而不只是擅長星際爭霸、雅達利遊戲或者圍棋。

Fridman：在動作模態上，什麼樣的模型能稱之為「智慧體」？

Vinyals： 在我看來，智慧體實際上是在一個環境中採取行動的能力。它對環境給出一個動作的反應，環境會返回一個新的觀察，然後它會產生下一個動作。

我們訓練 Gato 的方法是提取觀察資料集，是一種大規模的模仿學習演算法，比如訓練它預測資料集中的下一個詞是什麼。我們有人們在網頁上的文字和聊天資料集。

DeepMind 對強化學習和在不同環境中工作的學習智慧體很感興趣。我們開發了一個數據集，記錄智慧體的經驗軌跡。我們訓練的其他智慧體都是為了一個單一的目標，比如控制一個三維遊戲環境和導航迷宮，我們會把一個智慧體與環境的互動所獲得的經驗加入到資料集裡。

訓練 Gato 時，我們把單詞、智慧體與環境的互動等資料都混合在一起進行訓練，這是 Gato 的「通用」之所在，對於不同的模態和任務，它都只有單個的「大腦」，而且與近年來大部分神經網路相比，它並沒有那麼大，只有 10 億引數。

儘管規模小，但它的訓練資料集非常有挑戰性和多樣化，不僅包含網際網路資料，還包含智慧體與不同環境的互動經驗。

原則上，Gato 能夠控制任何環境，尤其是被訓練過的電子遊戲、各種機器人任務等環境。但它不會做得比教它的老師更好，規模仍然是很重要的，Gato 的規模相對還比較小，所以它是個開始，擴大規模可能會增強各種模態之間的協同作用。而且我相信會有一些新的研究或準備資料的方法，比如我們需要讓模型清楚它在玩雅達利遊戲時不只是考慮上和下的動作，在看到螢幕開始玩遊戲之前，智慧體需要一定的背景，可以用文字告訴它「我給你展示的是一整個序列，你要開始玩這個遊戲了」。所以文字可能是增強資料的一個辦法。

Fridman：如何對文字、影象、遊戲動作、機器人任務做 tokenization？

Vinyals：好問題。tokenization 是讓所有資料成為序列的一個起點，這就像我們把所有東西都分解成這些拼圖塊，然後就可以模擬出拼圖的樣子。當你把它們排成一行時，就成了一個序列。Gato 使用的是目前標準的文字 tokenization 技術，我們通過常用的子字串來對文字進行 tokenization ，比如“ing”是英語中一個常用的子字串，所以它可以作為一個 token。

Fridman：一個單詞需要多少個 token？

Vinyals：對於一個英語單詞，目前的 tokenization 粒度一般是 2~5 個符號，比字母大，比單詞小。

Fridman：你嘗試過對 emojis 做 tokenization 嗎？

Vinyals：emojis 實際上只是字母的序列。

Fridman：emojis 是影象還是文字？

Vinyals：實際上可以將 emojis 對映為字元序列，所以你可以給模型輸入 emojis，它也會輸出 emojis。在 Gato 中，我們處理影象的方式是把影象壓縮為不同強度的畫素，從而獲得一個非常長的畫素序列。

Fridman：所以這裡面不涉及語義？你不需要理解關於影象的任何東西？

Vinyals：對，在這裡只使用了壓縮的概念。在 tokenization 層面，我們做的就是找到共同的模式來壓縮影象。

Fridman：視覺資訊比如顏色確實能捕捉到影象意義方面的東西，而不只是一些統計資料。

Vinyals：在機器學習中，處理影象的方法更多是由資料驅動的。我們只是使用影象的統計資料，然後對它們進行量化。常見的子字串被定位成一個 token，影象也是類似，但它們之間沒有聯絡。如果把 token 看作是整數，假設文字有 10000 個 token，從 1 到 10000，它們代表了我們會看到的所有語言和單詞。

影象是另一個整數集合，從 10001 到20000，二者是完全獨立的。連線它們的是資料，在資料集中，圖片的標題會告訴影象內容。模型需要預測從文字到畫素，二者之間的關聯隨著演算法的學習而發生。除了單詞、影象，我們還可以把整數分配給動作，將其離散化，用類似的想法把動作壓縮成 token。

這就是我們現在把所有空間型別對映到整數序列的方法，它們各自佔據的空間不同，連線它們的是學習演算法。

Fridman：你之前提到過，很難擴大規模，這是什麼意思？有些湧現是有規模上的門檻的，為什麼很難擴大類似於 Gato 這樣的網路？

Vinyals：如果你對 Gato 網路進行再訓練，擴大規模並不難。關鍵是我們現在有10億個引數，我們是否可以使用同樣的權重來把它擴充套件成一個更大的大腦？這是非常困難的。所以在軟體工程中有模組化的概念，已經有一些利用模組化的研究。Flamingo 不處理動作，但它處理影象很強大，這些專案之間的任務是不同的、模組化的。

我們在 Flamingo 模型中完美地實現了模組化，我們採用了純語言模型 Chinchilla 的權重，然後凍結這些權重，在模型的正確位置接上一些新的神經網路。你需要研究如何在不破壞其他功能的情況下新增別的功能。

我們建立了一個小的子網路，它不是隨機初始化的，而是通過自我監督來學習。然後我們用資料集把視覺和語言這兩種模態聯絡起來。我們凍結了網路中最大的部分，然後從頭在訓練頂部添加了一些引數。然後 Flamingo 就出現了，它輸入的是文字和影象，輸出的是文字。你可以教它新的視覺任務，它所做的事情超出了資料集本身提供的功能，但它利用了許多從 Chinchilla 那裡獲得的語言知識。

這種模組化的關鍵思想是，我們取一個凍結的大腦，給它新增一個新的功能。在某種程度上，你可以看到，即使是在 DeepMind，我們也有 Flamingo 這種折衷主義，它可以更合理地利用規模，而不需要從頭再訓練一個系統。

而 Gato 儘管也使用了相同的資料集，但它是從頭訓練的。所以我想社群面臨的一個大問題是，我們應該從頭開始訓練，還是應該接受模組化？作為一種擴大規模的方式，模組化非常有效。

元學習將包含更多互動

Fridman：Gato 出現之後，我們能否重新定義「元學習」這個術語？你認為元學習是什麼？5年或10年之後，元學習會是擴充套件後的 Gato 的樣子嗎？

Vinyals：也許向後看而不是向前看能提供一個好視角。當我們在 2019 年談論元學習時，它的含義主要是經歷了 GPT-3 革命而改變的。當時的基準測試是關於學習物件身份的能力，所以非常適用於視覺和物體分類。我們學習的不僅僅是 ImageNet 告訴我們要學習的 1000 個類別，我們還要學習在與模型互動時可以被定義的物件類別。

模型的進化過程很有趣。剛開始，我們有一個特殊的語言，它是一個小的資料集，我們提示模型有一個新的分類任務。有了機器學習資料集的形式的提示，就得到了一個系統，可以預測或分類我們定義的物體。最後，語言模型成為了一個學習者。GPT-3 表明，我們可以關注物件分類以及在學習物件類別的範圍內元學習意味著什麼。

現在，我們不再被基準束縛，我們可以通過自然語言直接告訴模型一些邏輯任務。這些模型不是完美的，但它們正在做新的任務，通過元學習來獲得新能力。Flamingo 模型擴充套件到視覺和語言多模態，但擁有相同的能力。你可以教它。例如，一個湧現的特性是你可以給數字拍照，然後教它做算術。你給它看幾個例子，它就能學會，所以它遠遠超出了以往的影象分類。

這擴充套件了元學習在過去的含義。元學習一個不斷變化著的術語。鑑於當前的進展，我很希望看到接下來會發生什麼，5 年後可能就另說了。我們有一個系統，它有一組權重，我們可以通過互動提示教它玩星際爭霸。想象一下，你與一個系統對話，教它一個新遊戲，向它展示這個遊戲的例子。也許這個系統甚至會問你問題，比如，「我剛玩過這個遊戲，我玩得好嗎？你能教我更多嗎？」所以5年或者10年後，在專門的領域裡，這些元學習能力會更具互動性，更加豐富。比如我們專門針對星際爭霸開發的 AlphaStar 是很不同的。演算法是通用的，但權重是特定的。

元學習已經超出了提示的範圍，它會包含更多的互動。系統可能會在它犯錯或者輸掉比賽後告訴我們給它一些反饋。其實基準已經存在了，我們只是改變了它們的目標。所以在某種程度上，我喜歡把通用人工智慧理解為：我們已經在國際象棋和星際爭霸這樣的特定任務上有 101 %的效能，而在下一次迭代中，我們可以在所有任務上達到 20%。下一代的模型的進步肯定是沿著這個方向。當然我們在一些事情上可能會出錯，比如我們可能沒有工具，或者可能 Transformer 不夠。在未來的 5 到 10 年裡，模型的權重很可能已經被訓練過，更多的是關於教學或者讓模型展開元學習。

這是一種互動式的教學。在機器學習領域，長期以來處理分類任務是使用的都不是這種方法。我的想法聽起來有點像最近鄰（nearest neighbor）演算法，它幾乎是最簡單的演算法，並不需要學習，不需要計算梯度。最近鄰做是在一個數據集中測量點與點之間的距離，然後對一個新點進行分類，你只需要計算在這大量資料中最近的點是什麼。所以你可以把提示看作是：你在上載的時候處理的不僅僅是簡單的點，而是在為預訓練的系統新增知識。

提示是對機器學習中非常經典的一個概念的發展，即通過最近的點來學習。我們在 2016 年的一項研究使用的就是最近鄰的方法，這在計算機視覺領域也很常見，如何計算兩幅影象之間的距離是一個非常活躍的研究領域，如果你能獲得一個很好的距離矩陣，你也能獲得一個很好的分類器。

這些距離和點不僅僅限於影象，還可以是教給模型的文字或文字、影象、動作序列等新資訊。我們可能不會再做更多的權重訓練。元學習的一些技術確實會做一些微調，得到一個新任務時，它們會稍微訓練一下權重。

Transformer 的強大之處

Fridman：我們已經做出了 Flamingo、Chinchilla、Gopher 這些通用的、大規模的模型和智慧體，它們在技術上有何特殊之處？

Vinyals： 我認為成功的關鍵是工程。首先是資料工程，因為我們最終收集的是資料集。然後是部署工程，我們將模型大規模部署到一些計算叢集中。這個成功要素適用於一切，魔鬼的確存在於細節之中。

另外就是目前基準方面的進展，一個團隊花上數月做一項研究，並不能確定能否成功，但如果你不冒險去做一些看起來不可能的事情，就不會有成功的機會。不過，我們需要一種衡量進展的方法，所以建立基準是至關重要的。

我們大量利用基準開發了 AlphaFold，這個專案的資料和指標都是現成的。一個優秀團隊不應該是為了找到一些增量改進並發表論文，而是要有更高的目標，併為其鑽研數年。

在機器學習領域，我們喜歡像神經網路這樣的架構，而且在 Transformer 出現之前，這是一個發展非常迅速的領域。“Attentionis All You Need” 的確是一個很棒的論文題目。這個架構實現了我們對任何位元組序列進行建模的夢想。我認為這些架構的進步某種程度上是在於神經網路的工作方式，很難找到一種發明於五年前、至今依然穩定、變化很小的架構，所以 Transformer 能夠不斷出現在很多專案中，這是令人驚訝的。

Fridman：在技術的哲學性層面，注意力的魔力在什麼地方？注意力在人類心智中是如何運作的？

Vinyals： Transformer 和長短期記憶人工神經網路 LSTMs 之間存在區別，在 Transformer 的早期，LSTMs 仍然是很強大的序列模型，比如 AlphaStar 就同時使用了兩者。 Transformer 的強大之處是它內建了一種歸納性的注意偏差。假如我們要解決針對一串單詞的複雜任務，比如翻譯一整段話，或者根據之前的十個段落來預測下一段話。

在直覺上， Transformer 做這些任務的方式是對人類的模仿和複製，在 Transformer 中，你是在尋找某個東西，你在剛讀了一段文字後，你會想接下來會發生什麼，你可能想重新看一下文字，這是一種假設驅動的過程。如果我在想我下一個詞是“貓”還是“狗”，那麼Transformer 的運作方式是它有兩個假設：會是貓？還是狗？如果是貓，我會找出一些詞（不一定就是“貓”這個詞本身），並回溯上文來看看輸出“貓”還是“狗”更說得通。

然後它會對單詞進行一些非常深入的計算，它將詞組合起來，它還可以查詢。如果你真的仔細思考文字，你就需要回看上文的所有文字，但是什麼在引導著注意力？我剛剛寫了什麼，這當然很重要，但你十頁之前寫下的東西也可能很關鍵，所以你要考慮的不是位置，而是內容。Transformer 的可以查詢特定的內容並將其拉取出來，從而更好地做決策。這是一種解釋 Transformer 的方式，我認為這種歸納偏差非常強大。隨著時間推移，Transformer 可能會有一些細節上的變化，但是歸納偏差使得 Transformer 比基於近因偏差的迴圈網路更加強大，迴圈網路在某些任務中有效，但它有非常大的缺陷。

Transformer 本身也有缺陷。我認為最主要的一個挑戰就是我們剛才討論的提示。一個提示可能有長達 1000 個詞，甚至我需要給系統看關於一個遊戲的視訊和維基百科的文章。當系統玩遊戲並向我提問時，我還需要與之互動。我需要成為一個好的老師來教模型實現超出現有的能力的事情。所以問題是，我們如何對這些任務進行基準測試？我們如何改變架構的結構？這是有爭議的。

Fridman：個體的人在這一切的研究進展中有多重要？他們在多大程度上改變了相關領域？你現在正在領導著 DeepMind 的深度學習研究，你會有很多專案，很多傑出的研究人員，所有這些人類能帶來多少變革？

Vinyals：我相信人的作用非常大。一些人想要獲得可行的想法並堅持下去，另一些人可能更實際，他們不在乎什麼想法可行，只要能破解蛋白質摺疊就行。我們同時需要這兩種看起來對立的想法。在歷史上，二者都分別或早或晚地產出了某些東西。二者的區分也許還類似於強化學習領域所說的 Exploration-Exploitation Tradeoff（探索-利用權衡）。在一個團隊中或在會議上與人互動時，你很快會發現某個東西是可探索的或者可利用的。

否定任何一種研究風格都是錯誤的，我是工業界的，所以我們有大規模算力可以使用，也會有相應的特定型別的研究。為了科學進步，我們需要回答我們現在應該回答的問題。

與此同時，我也看到了很多進步。注意力機制最初是在加拿大的蒙特利爾由於缺乏算力而被發現的，當時我們正和谷歌大腦的朋友一起研究序列到序列模型。我們使用了 8 個 GPU（其實這個數量在那個時候其實挺多了），我覺得蒙特利爾在計算規模上還比較有限。但後來他們發現了基於內容的注意力概念，這進一步帶來了 Transformer。

Fridman：很多人都傾向於認為天才棲息於那些巨集大的創見，但我懷疑工程上的天才往往在於細節，有時單個工程師或者少數幾個工程師就能改變我們所做的事情，尤其是那些大規模計算機上進行的一個工程決策可能會引發連鎖反應。

Vinyals：如果你回顧一下深度學習和神經網路的發展歷史，你會發現有偶然的成分在。因為 GPU 恰好在正確的時間出現，儘管是為電子遊戲而服務。所以即使是硬體工程也會受到時間因素的影響。也是由於這場硬體革命，資料中心被建立起來。例如谷歌的資料中心。有了這樣的資料中心，我們就可以訓練模型。軟體也是一個重要的因素，而且越來越多的人在進入這個領域。我們也許還會期待一個系統能擁有所有基準。

AI 距離湧現出意識還很遠

Fridman：你有一篇與 Jeff Dean、Percy Liang 等人合著的論文，題為“Emergent Abilities of Large Language Models”。神經網路中的湧現在直覺上怎麼解釋？是否有一個神奇的臨界點？這會因任務而異嗎？

Vinyals：以基準測試為例。在你訓練系統的過程中，當你分析資料集大小對效能有多大影響、模型大小如何影響效能、訓練了多久系統才會影響到效能等問題時，曲線是相當平滑的。如果我們把 ImageNet 看成是非常平滑且可預測的訓練曲線，它在某種程度上看起來相當平滑和可預測。

在語言方面，基準要求更多的思考，即使輸入是一個描述數學問題的句子，也需要更多的處理和更多的內省。模型的效能可能會變得隨機，直到由 Transformer 的查詢系統或者 Transformer 這樣的語言模型提出一個正確的問題，效能才開始從隨機變為非隨機，這是非常經驗性的，背後還沒有形式化的理論。

Fridman：最近一個谷歌工程師聲稱，Lambda 語言模型是有意識的。這個案例涉及人類層面、機器學習的技術層面以及 AI 系統在人類世界中的角色的哲學層面。作為一名機器學習工程師以及作為一個人類，你的看法是什麼？

Vinyals：我認為目前的任何一種模型離具有意識都還很遠。我覺得我有點像個失敗的科學家，我總會覺得看到機器學習可能是一門可以幫助其他科學的科學，我喜歡天文學、生物，但我不是那些領域的專家，所以我決定研究機器學習。

但是當我對 Alphafold 有了更多的瞭解，學習了一些關於蛋白質、生物學和生命科學的知識後，我開始觀察在原子水平上發生的事情。我們傾向於把神經網路想象成大腦，當我不是專家的時候，它看起來很複雜性和神奇，但是生物系統遠遠比計算大腦要更復雜，現有的模型還沒有達到生物大腦的水平。

對於這位谷歌工程師的事情，我並沒有那麼驚訝。也許是因為我看到時間曲線變得更加平滑，從50 年代夏農的工作以來，語言模型的進步並沒有那麼快， 100年前的想法和我們現在的想法並沒有什麼不同。但沒有人應該告訴別人他們應該怎麼想。

人類從一開始被創造出來就具有的複雜性，以及整個宇宙進化的複雜性，對我來說是更迷人的數量級。痴迷於你所做的事情是好事，但我希望生物學專家能告訴我這並不是那麼神奇。通過社群中的互動，我們也可以獲得一定程度的教育，這有助於瞭解什麼是不正常的、什麼是不安全的等等，否則一項技術將無法得到正確的應用。

Fridman：為了解決智慧問題，系統需要獲得意識嗎？人類心智中哪一部分的意識對創造 AI 系統有指導意義？

Vinyals：我覺得系統的智慧不必達到有一個極度有用、能夠挑戰你、指導你的大腦的程度。而是應該你教它做事。就我個人而言，我不確定意識是否必要，可能意識或其他生物或進化的觀點會影響我們的下一代演算法。

人的大腦和神經網路進行計算的細節是有區別的，二者當然有一些相似之處，但我們對大腦的細節瞭解還不夠。但如果把範圍縮小一點，如我們的思維過程，記憶如何運作，甚至我們如何進化到現在的樣子，探索和開發是什麼等等，這些都可以啟發演算法層面的研究。

Fridman：你是否同意 Richard Sutton 在 The Bitter Lesson（《苦澀的教訓》）中的觀點，即 70 年來的人工智慧研究帶來最大的教訓是利用計算能力的一般方法是最終有效的方法？

Vinyals：我非常同意這個觀點。對於構建可信、複雜的系統來說，擴大規模是必要的。這可能還不夠，我們需要一些突破。Sutton 提到搜尋是規模化的一種方法，在圍棋這樣的領域，搜尋很有用，因為有明確的獎勵函式。但在其他一些任務中，我們不太清楚該怎麼做。

AI 至少可以具備人類水平的智慧

Fridman：你認為在你有生之年，我們能建立一個達到甚至超越人類智力水平的通用人工智慧系統嗎？

Vinyals：我絕對相信它將具備人類水平的智慧。「超越」這個詞很難定義，尤其是當我們從模仿學習的角度來看目前的標準時，我們當然可以讓 AI 在語言方面模仿和超越人類。所以要通過模仿來達到人類水平需要強化學習和其他東西。在某些領域已經有了回報。

就超越人類能力而言，AlphaGo 是我迄今為止最喜歡的例子。而在一般意義上，我不確定我們是否能夠從模仿人類智力水平的角度來定義獎勵函式。至於超越，我還不太確定，但肯定能達到人類水平。很明顯我們不會去嘗試超越，如果超越，我們將有超人科學家和探索發現來推動世界發展，但至少人類水平的系統也是非常強大的。

Fridman：當有數十億達到或超越人類水平的智慧體與人類社會深度融合，你認為會有一個奇點時刻嗎？你會害怕還是為這個世界感到興奮?

Vinyals：也許我們需要考慮我們是否真的能達到這個目標。在資源有限的情況下，讓太多的人共存會產生很多問題。對於數字實體來說，數量限制也許也應該存在。這是出於能源可用性的原因，因為它們也消耗能源。

事實上，就能源需求而言，大多數系統的效率都比我們低。但我認為，作為一個社會，我們需要共同努力找到合理的增長方式以及我們如何共存。如果真的發生，我會很興奮，自動化的一些方面使那些原本顯然沒有機會獲得某些資源或知識的人變得有機會，這是我最期待看到的應用。

Fridman：最後一個問題，隨著人類走出太陽系，未來世界會有更多的人類還是更多的機器人？

Vinyals：人類和 AI 可能混合共存，這只是猜測，但已經有公司正試圖以這種方式讓我們變得更好。我希望比例至多到達 1：1，1：1 也許是可行的，但失去平衡就不好了。

原視訊連結：http://youtu.be/aGBLRlLe7X8

更多內容，點選下方關注：

掃碼新增 AI 科技評論微訊號，投稿&進群：

「其他文章」