UCL汪軍專訪:從生命體決策出發,探索智慧決策的安全與風險

語言: CN / TW / HK

來源:智源社群

整理:沈磊賢

編輯:李夢佳

導讀: 我們的日常生活中無時無刻不涉及到決策,如果說感知智慧是從觀察到發現規律的過程,那麼決策智慧就是從規律再返回到感知世界,進而改變資料的過程。這樣的邏輯可以描述整個生命體的規律,同時也為我們設計通用人工智慧提供了方向和思路。

生命體是如何進行決策的?機器在較複雜的決策空間中怎樣學習?如今火爆的NLP大模型如何能夠幫助我們進行智慧決策? 針對這些問題,在2022北京智源大會的強化學習與決策智慧論壇上,來自倫敦大學學院計算機系的汪軍教授作了題為《智慧決策大模型》的報告。同時,智源社群也對汪軍教授進行了專訪,針對該領域內的前沿趨勢進行了深入探討。

汪軍,倫敦大學學院計算機系教授,英國艾倫·圖靈研究所(The Alan Turing Institute)Fellow。主要研究智慧資訊系統,包括機器學習、強化學習、多智慧體、資料探勘、計算廣告學、推薦系統等。汪軍教授目前已發表 200 多篇學術論文,出版兩本學術專著,並多次獲得最佳論文獎。

決策的機理是什麼?

笛卡爾在17世紀作為哲學家和數學家就開始思考人是如何做決策的,當時的科學還是比較落後,笛卡爾給出的解釋比較機械,即二元論的觀點 。笛卡爾認為在大腦中有某個特定的器官,叫松果體,為心靈和肉體之間的互動提供了場所。 心靈的東西雖然是無法解釋的,但是笛卡爾認為心靈的東西可以控制人體各種各樣的行為動作,通過他的導引能夠進行一些日常的決策和行動。這是他對人的決策的解釋。

松果體

此外,相關研究中另一個理論來解釋人甚至生命的思路是“熵增熵減”的原理。 整個宇宙是一個熵增的過程,即從有序變無序的狀態。 假設某個封閉的空間被抽成了真空,在一邊劃一個裂縫,將氣體放進去,慢慢擴散到整個空間,這種氣體的擴散就是從有序變成無序的狀態。

生命體則相反,吸收能量,是從無序走向有序的狀態;於是從人生下來到死亡是一個熵減的過程。人的生活日常其實是在找規律,即使生活環境在變,人內在環境的很多東西是不會變的,比如說身體的體溫,身體體液的成分等。所以作為一個生命體,無論外界的情況如何變化,其內部總是希望保持一個恆定的狀態。

人工智慧技術是人產生的,它必然是幫助我們解決這個不變性問題。從這個角度不難理解作為一個生命體是如何做決策。下圖中,假設左側的整個環境是不可知的,右側作為一個生命體的簡單模型(抑或人工智慧體的模型),“他”可以觀測到外界的狀態,但是無法100%觀察到自然界的固有的規律。

基於已有的觀測,個體在內部會對真實的世界產生一個估計,代表了個體對外界的理解。當它有這個理解以後,就可以採取行動對外界做出改變,比如人可以改變世界,細胞可以釋放出某些物質來與病毒做鬥爭。外界受影響之後又會出現新的狀態,整個過程迭代反覆。 所以感知智慧是從觀察到發現規律的過程,決策智慧就是從規律再返回到感知世界,進而改變資料的過程。 這樣的邏輯可以描述整個生命體的規律,同時也為我們設計通用人工智慧提供方向和思路。

一個環境和個體互動的簡單模型。左邊是環境,右邊是個體

決策智慧

智慧決策中主要涉及三個層面:感知、認知和決策。

感知是主觀的,是個體的感知,每個人不一樣。這就是為什麼會有高階動物,會有所謂的藝術等。很多事物難以用語言描述,但可以用其他的方式進行表達,人和人之間會在這種表達中產生共鳴,這是感知的固有規律。

決策背後的機理是什麼呢?效用理論 (Utility theory)。 是John Von Neumann提出的。他是一位非常著名的數學家,同時也是計算機學科的奠基人物。他同時也創立了Games Theory,在經典的《Games Theory》中他提供了一套數學工具來揭示如何做決策,其本質是優化某一個特定的函式,選擇能夠最大化函式的值。

智慧樸素的理解為從狀態到行為的對映,使得長期的受益最優。以經典的巴甫洛夫條件反射實驗為例,狗為什麼可以跟鈴聲和食物產生聯絡,為什麼一有鈴聲它就會產生唾液?那就是因為它學習到了主人敲鈴的時候會把這個食物給它,對狗這個生命體來說可以迅速地跑到搖鈴處去獲取食物,它的行為最優的表現是它可以適應環境獲取食物,從長時間來達到它的受益。

決策中的安全與風險

在網際網路時代需要做更加精細的決策,安全與風險是其中重要的部分。 在這個方面,汪軍教授介紹了他帶領的華為諾亞實驗室倫敦團隊2022年發表在ICML上的工作,SAUTE RL。幾乎肯定(或以概率為一)的滿足安全約束對於在現實應用中部署強化學習 (RL) 至關重要。例如,飛機著陸和起飛在理想情況下應該以概率 1 發生。汪軍教授團隊通過引入安全增強的馬爾可夫決策過程(MDP)來解決這個問題,其中通過將安全約束增強到狀態空間並重塑目標來消除安全約束。團隊證明了 Saute MDP 滿足 Bellman 方程,並更接近於解決幾乎肯定滿足約束的 Safe RL。

團隊認為 Saute MDP 採用了一個不同角度對待安全決策問題。例如,新提出的方法具有即插即用的特性,即任何 RL 演算法都可以“炒”。此外,狀態增強允許跨安全約束的策略泛化。最終表明,當約束滿足非常重要時,Saute RL 演算法可以超越其最先進的演算法。在下圖所示的實驗中,可以Saute RL 演算法在一些極端的測試下,安全性仍然是綠色的,圖中虛線表示100%安全。Saute RL 演算法在一些安全性要求較高的場景廣泛應用,比如電力、自動駕駛等。

https://arxiv.org/pdf/2202.06558.pdf

另外一個更難的問題是如何保證模型訓練安全。 汪軍教授團隊將類似的方法運用到訓練中。訓練過程中加入一個安全狀態,它會記錄歷史上的操作是否安全,在學習的過程中可以根據安全狀態選擇安全的路徑。

Enhancing Safe Exploration Using Safety State Augmentation, under submission, 2022

小資料的決策:提高樣本利用率的貝葉斯優化

決策智慧在網際網路廣告等方面應用廣泛,其表現形式豐富多樣,如強化學習、運籌優化等,其本質上是一個優化的問題。給定一個目標函式f,如果f是已知的就是白盒優化,如果是未知的則是黑盒優化。優化的目的是找到決策的輸入值x,使得函式最大化f。從這個角度來講,它的應用非常廣泛,比如電廠、EDA、醫療抗體等,這些本質上都是黑盒優化的問題。黑盒優化中比較好的方法是貝葉斯優化,允許在優化中試錯,從理論上可以保證能夠找到全域性的最優,同時也儘量減少實驗的次數,在資料很稀疏的情況下效果明顯。

https://arxiv.org/abs/2012.03826

很多決策的問題可以歸根為黑盒優化問題。汪軍教授帶領的華為諾亞實驗室團隊2022年發表在DATE上的工作BOiLS則是在EDA上的一次嘗試。在邏輯綜合(logic synthesis)過程中優化電路的結果質量是一項艱鉅的挑戰,需要探索指數大小的搜尋空間。雖然專家設計的操作有助於發現有效的序列,但邏輯電路複雜性的增加有利於自動化程式。受機器學習成功的啟發,很多研究將深度學習和強化學習應用於邏輯綜合應用,但是這些技術都因樣本複雜性高而無法廣泛應用。為了實現高效和可擴充套件的解決方案,團隊提出了BOiLS,這是第一個採用現代貝葉斯優化來導航合成操作空間的演算法。BOiLS不需要人工干預,並通過新穎的高斯過程核心和受信任區域約束的採集有效地權衡探索與利用。在EPFL基準的一組實驗中, BOiLS 在樣本效率和 QoR 值方面明顯優於現有技術。

https://arxiv.org/pdf/2111.06178.pdf

另一個例子是有關醫療領域的自動化抗體設計。抗體是典型的Y形多聚體蛋白,能夠進行高度特異性的分子識別。位於抗體可變鏈末端的CDRH3區域支配著抗原結合特異性。因此,設計最佳抗原特異性CDRH3區域以開發治療性抗體來對抗有害病原體是當務之急。然而,CDRH3序列空間的組合特性使得不可能詳盡有效地搜尋最佳結合序列。

針對此問題,汪軍教授團隊提出了AntBO:一種組合貝葉斯優化框架,可實現CDRH3區域的高效計算設計。在理想情況下,抗體應與其靶抗原結合,並且不會產生任何有害結果。因此,團隊引入了CDRH3信任區域,它將搜尋限制在具有可開發性分數的序列上。為了對AntBO進行基準測試,團隊使用 Absolut!軟體套件作為黑盒預言機,因為它可以以不受限制的方式在計算機上對設計抗體的目標特異性和親和力進行評分。188種抗原的結果證明了AntBO在設計具有不同生物物理特性的CDRH3區域方面具有明顯優勢。在不到200種蛋白質設計中,AntBO可以推薦優於從690萬個實驗獲得的CDRH3最佳結合序列的抗體序列,以及常用遺傳演算法基線中提取的最佳序列。此外,AntBO僅在38種蛋白質設計中無需領域知識並發現了非常高親和力的CDRH3序列。所以AntBO使自動化抗體設計方法更接近於體外實驗實際上可行的方法。

https://arxiv.org/abs/2201.12570

大資料+大模型的決策:提高泛化能力

在大資料模型中,汪軍教授認為多智慧體強化學習不是隻能應用在遊戲中,遊戲場景中的關鍵決策問題可以放大,在遊戲場景中將這些技術研究清楚之後就可以應用到各種各樣的場景裡。針對此問題,汪軍教授介紹了組內的近期代表性工作:

汪軍教授團隊在可訓練求解器和資料生成器之間引入了一個two-player zero-sum框架,以提高基於深度學習的求解器對旅行商問題(TSP)的泛化能力。基於Policy Space Response Oracle (PSRO)方法,團隊提出的框架輸出了一組響應最好的求解器,這些求解器可以混合並輸出一個組合模型,該模型對生成器的可利用性最小,從而獲得在不同的TSP任務上最普遍的效能。團隊對不同型別和大小的各種TSP例項進行了實驗。結果表明,即使在求解器從未遇到過的任務上,新提出的求解器也能實現最先進的效能,而其他基於深度學習的求解器的效能由於過度擬合而急劇下降。

https://arxiv.org/pdf/2110.15105

離線強化學習是利用先前收集的離線資料集來學習最佳策略,而無需訪問真實環境。考慮到代理之間以及與環境的互動增加,這種正規化對於多代理強化學習 (MARL) 任務也是可取的。然而,在 MARL 中,還沒有研究過帶有線上微調的離線預訓練正規化,也沒有用於離線 MARL 研究的資料集或基準。

汪軍教授團隊通過提供大規模資料集來促進研究,並使用它們來檢查Decision Transformer在MARL環境中的使用,包括以下三個方面對MARL離線預訓練的泛化研究:1)單代理和多代理之間,2)從離線預訓練到線上微調,3)到少樣本的多個下游任務和零射擊能力。

團隊首先介紹了第一個基於星際爭霸II環境的具有不同質量水平的離線MARL資料集,然後提出了用於有效離線學習的多智慧體決策轉換器(MADT)的新穎架構。 MADT利用Transformer的序列建模能力,並將其與離線和線上MARL任務無縫整合。MADT的一個關鍵作用是它學習了可以在不同任務場景下和不同型別的代理之間轉移的通用策略。在星際爭霸II離線資料集上,MADT 優於最先進的離線RL基線。當應用於線上任務時,預訓練的MADT顯著提高了樣本效率,並且在少樣本和零樣本情況下都具有強大的效能。

https://arxiv.org/pdf/2112.02845

GPT 系列和 BERT 等大序列模型(SM)在視覺、語言和最近的強化學習任務上表現出出色的效能和泛化能力。一個自然的後續問題是如何將多智慧體決策抽象為一個SM問題並從SM的繁榮發展中受益。 汪軍教授團隊介紹了一種名為 Multi-Agent Transformer (MAT)的新型架構,該架構有效地將協作多智慧體強化學習 (MARL)轉化為SM問題 ,其中任務是將智慧體的觀察序列對映到智慧體的最佳動作序列。目標是在MARL和SM之間架起一座橋樑,以便為MARL釋放現代序列模型的建模能力。MAT的核心是編碼器-解碼器架構,它利用多智慧體優勢分解定理將聯合策略搜尋問題轉換為順序決策過程。與Decision Transformer 等現有技術僅適合預先收集的離線資料不同,MAT以線上策略方式通過來自環境的線上試驗和錯誤進行訓練。為了驗證MAT,團隊在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結果表明,與包括MAPPO和HAPPO在內的強大基線相比,MAT實現了卓越的效能和資料效率。

https://arxiv.org/pdf/2205.14953.pdf

總結

汪軍教授主要介紹了智慧決策的問題和方法,同時也探討了NLP大模型對智慧決策泛化性帶來的好處,且單智慧體已經無法滿足現有的應用需求,未來還需要在多智慧體上進行長期的探索。

Q&A

您一開始是如何進入強化學習領域的?

推薦系統、搜尋系統,網際網路廣告系統等領域本質上是一個決策的過程,根據歷史資料預測使用者的喜好等。決策智慧是讓機器來幫助人類進行更加智慧的決策。我們發現強化學習是對決策系統的一種數學的表達和框架,當然要包括貝葉斯優化和其他形式。所以我們就對強化學習產生了興趣,並進一步應用到推薦系統等領域。

強化學習最吸引人的地方在哪兒?

內部原因是任何研究都需要一個well-defined的問題,決策是一個長期研究的問題,我們發現強化學習和決策在本質上相通,可以利用強化學習來解決一些決策問題。外部原因是AlphaGo等一系列工作的成功促使我們去研究強化學習。強化學習也催生了很多分支,比如多智慧體強化學習,博弈論和機器學習相結合的強化學習在經濟學上的應用等。我們對這些新的問題都很感興趣。

學術界近期有哪些強化學習工作值得關注?

安全魯棒性是一個重要的工作,DeepMind將CV,NLP和強化學習結合在一起具有很好的前瞻性,這種跨模態,跨領域的問題值得關心。強化學習和優化的結合可以在現實中廣泛應用,如EDA,電力工廠決策,醫療抗體設計等。強化學習通過跨任務的大模型可以解決一系列的問題的任務群。

您過去一段時間內的研究興趣和研究進展是?

我們並不是一定要做強化學習,只要是和決策智慧相關的有價值的問題我們都會做,比如決策的安全性,我們在華為諾亞實驗室裡做了安全魯棒性相關的工作,以及一些多智慧體強化學習和大模型的工作。

多智慧體強化學習未來有哪些應用?

一個重要的方向是應用在機器人上,但是未來需要重點考慮與人的互動。遊戲也是一個重要的應用,在遊戲中學習的普適性問題可以廣泛應用到其他領域。另一個值得關注的方向是大模型的應用,多智慧體也是一個sequence問題,可以用大模型中的離線訓練方法來提升效能。

您擔任倫敦大學學院計算機教授,相比於中國和美國,英國的AI研究有何特色?

大家熟知的英國AI研究可能是DeepMind,其實還有其它高校研究也非常活躍。英國整體的AI研究實力很強。英國的學術氛圍很好,由於語言的優勢,很多歐洲的研究者都會到英國來進行研究。歐洲其他國家,比如德國,可能會更偏工業性一點,學術上可能沒有那麼重視,但是英國就不會存在這些問題。英國的很多高科技企業和資本以及高校的結合會產生一些不一樣的工作,具有一個比較好的研究土壤,因為他可以吸引整個歐洲的AI人才,使得研究質量和影響力是其他地區無法比擬的。

目前CV和NLP研究火熱,決策智慧研究熱度較低,青年學者應該如何選擇研究方向?

我不覺得決策智慧的研究熱度較低,主流的機器學習會議每年會產生很多和決策智慧相關的論文,雖然相比於CV和NLP要弱一些,但是目前呈現上升的趨勢。決策智慧擁有很多的落地場景和學術研究問題,青年學者如果想做一些有前瞻性的工作,可以考慮在決策智慧領域展開研究。我們每年夏天會組織一個強化學習研討會RLChina (http://rlchina.org),會邀請學術界和工業界的大牛來全面地介紹相關工作,也會邀請投資人和創新公司來探究技術落地地可能性,所以我們這一系列工作也是為青年學者搭建一個交流和學習地平臺。

為什麼英國可以孕育出DeepMind這樣優秀的AI企業?

我認為一個重要的原因是英國可以吸收整個歐洲的AI人才。另一個原因是人才眼界的問題,他們在研究上的能力很強,更願意做一些突破性的工作,敢於比別人更早地問一些前瞻性地問題,敢於承擔一定的風險。此外,他們一般沒有考核性的論文指標,不是paper-driven地工作,可以相對自由地去探索問題。

您認為做研究最珍貴的品質是什麼?

創新性是必須的,另外一個是學術品位,特別是瞭解什麼問題不應該去做,要做一些長期性和前瞻性的問題,而且問問題比做問題更重要。自己能夠定一個方向,然後長期地進行探究。

未來智慧實驗室的主要工作包括:建立AI智慧系統智商評測體系,開展世界人工智慧智商評測;開展網際網路(城市)大腦研究計劃,構建網際網路(城市)大腦技術和企業圖譜,為提升企業,行業與城市的智慧水平服務。每日推薦範圍未來科技發展趨勢的學習型文章。目前線上平臺已收藏上千篇精華前沿科技文章和報告。

   如果您對實驗室的研究感興趣,歡迎加入未來智慧實驗室線上平臺。 掃描以下二維碼或點選本文左下角“閱讀原文”