DeepMind 新作：AI 系統實現以人為中心的分配機制設計

語言: CN / TW / HK

時間 2022-07-25 23:15:58 集智俱樂部

主題: 人工智慧

如何在經濟和社會系統中重新分配資源？例如，一群人決定集中資金進行投資，獲得回報後該如何分配收益？簡單的平均分配看起來不太公平，但按照每個人的初始投資規模按比例分配，就真的公平嗎？近日，DeepMind公司開發了名為 Democratic AI 的系統來探索解決這個機制設計問題。Democratic AI 可以直接學習最大化一群人的偏好，融合人類思想家和專家之前為解決再分配問題而提出的各種想法，從而設計出更受歡迎的分配策略。該方法解決了 AI 研究中的一個關鍵挑戰——如何訓練符合人類價值觀的人工智慧系統。

集智俱樂部組織的「計算社會科學讀書會」第二季已經啟動報名，將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合，並針對性討論預測性與解釋性、新冠疫情研究等課題。讀書會6月18日開始，持續10-12周，詳情見文末。

高晉宇 | 作者

鄧一雪 | 編輯

論文題目：

Human-centred mechanism design with Democratic AI

論文連結：

http://www.nature.com/articles/s41562-022-01383-x

構建與人類價值觀一致的人工智慧（AI）是一個尚未解決的問題。近日DeepMind公司發表於Nature的最新研究開發了一個名為“民主AI” （Democratic AI）的方法，利用強化學習設計一種大多數人喜歡的社會機制。

一群人在玩一個線上投資遊戲，其中涉及決定是保留一筆貨幣捐贈，還是與其他人分享，以實現集體利益。共享收益通過兩種不同的再分配機制返還給玩家，一種是由AI設計的，另一種是由人類設計的。 AI 發現了一種機制，可以糾正最初的財富失衡，制裁搭便車者，併成功贏得多數投票。通過優化人類偏好，“民主AI”為與價值一致的政策創新提供了概念證明。表明深度強化學習可用於找到人們將在簡單遊戲中以多數票贊成的經濟政策。因此，該論文解決了人工智慧研究中的一個關鍵挑戰——如何訓練符合人類價值觀的人工智慧系統。

1. 建立與人類價值一致的AI

關於如何在我們的經濟和社會中重新分配資源的問題，長期以來一直在哲學家、經濟學家和政治科學家中引起爭議。在經濟學和博弈論中，被稱為機制設計的領域研究如何最優地控制財富、資訊或權力在受到激勵的行為者之間的流動，以達到預期目標。這篇文章提出了一個問題：深度強化學習（RL）主體是否可以用來設計一種使被激勵的人群偏好的經濟機制。

構建行為受人類偏好的人工智慧系統的挑戰被稱為“價值校準”問題。實現價值一致的一個關鍵障礙是，人類社會承認多種觀點，這就不清楚人工智慧應該對哪一種偏好進行一致。在人工智慧研究中，人們越來越意識到，要建立與人類相容的系統，需要新的研究方法，讓人類和智慧體相互作用，並加大努力直接從人類那裡學習價值，以建立與人類價值一致的人工智慧。

通過仲裁相互衝突的觀點——人類選民中的多數民主——來開發一個以人為中心的研究方法，實現價值一致的人工智慧研究。這篇文章沒有給主體（agent）灌輸所謂的人類先驗價值，潛在地使系統傾向於人工智慧研究人員的偏好，而是訓練它們最大化一個民主目標：設計人類更喜歡的政策，從而在多數選舉中投票實施，這種方法稱為“民主AI”。

2. 遊戲實驗

文章建立了一個包含四名玩家的簡單遊戲。遊戲的每個例項都進行了10輪以上。在每一輪中，每個玩家都被分配了資金，捐贈的大小因玩家而異。每個玩家都做出了選擇：他們可以為自己保留這些資金，也可以將它們投資於一個共同的資金池中。投資的資金保證會增長，但存在風險，因為玩家不知道收益將如何分配。相反，他們被告知前10輪有一名裁判（A）做出重新分配決定，而後10輪則由另一名裁判（B）接管。比賽結束時，他們投票給A或B，並與這位裁判進行了另一場比賽。遊戲的人類玩家被允許保留最後一場遊戲的收益，因此他們被激勵準確地報告他們的偏好。

在10輪的每一輪中，每個參與者i都向公共投資基金貢獻整數c _i 的硬幣，捐贈數額為e _i ，剩餘的總和（e _i -c _i ）留在私人賬戶中（捐贈基金可能會因參與者的不同而有所不同，有一個參與者得到的比其他人多）。k=4個玩家的累計貢獻以 r = 1.6 的增長因子（投資的正回報）；這相當於邊際資本收益（marginal per capita return ，MPCR=0.4）。公共基金通過再分配機制返還給玩家，該機制規定了返還給每個玩家的公共投資總額的比例，取決於他們的貢獻和捐贈。這種博弈承認存在一種連續的再分配機制，這種再分配機制通常與政治光譜中對立的兩端有關，在這種機制中，回報在不同程度上取決於自己和他人的貢獻。

實驗一

參與者（n = 756）被分成4人一組，其中1名正面參與者獲得10枚硬幣，3名反面參與者獲得2、4或10枚硬幣。因此，當尾部玩家獲得少於10枚硬幣時，稟賦是不相等的，而當所有玩家獲得10枚硬幣時，稟賦是相等的。每組玩10輪遊戲，每次獲得相同的捐贈，但在不同的再分配機制下體驗每一場遊戲。每一種再分配機制都決定了玩家所獲得的支付是自己和他人的公共貢獻的不同函式。

嚴格的平均主義 再分配機制 將公共資金平均地分配給所有參與者，無論他們的貢獻如何。
自由意志主義機制 按照每個參與者的貢獻的比例向他們返還一份報酬，使之成為帕累託有效納什均衡。這種機制有效地實現了捐款私營化，消除了社會困境，鼓勵玩家增加捐款。
自由平等主義 提出，每個參與者對自己的行為負責，而不是對最初的優勢負責，因此支付取決於貢獻的捐贈資金的比例。

公共資金的分配策略可能是這三種規範機制中的一種，或者完全是其他的東西。潛在搜尋空間的大小使得使用傳統行為研究方法難以確定首選的機制。因此，研究開發了一個“人在迴圈的研究管道” （Human-in-the-looppipeline）來解決這個問題。首先，收集人類資料的初始樣本（Acquire），然後使用它來訓練“虛擬人類玩家”，這些反覆出現的神經網路在遊戲中學習模仿人類行為，並根據與人類玩家相同的原則投票（Model）。第三，利用深度RL優化機制設計，利用策略梯度法最大化虛擬人類玩家的投票（Optimize）。第四，對一組新的人類樣本進行了取樣，並將RL設計的再分配機制與對手的基線進行了一系列正面交鋒的多數選舉。這些新的人類資料隨後被用於增強我們的玩家建模過程，這反過來又改善了優化並帶來了潛在的更好的機制（Repeat）。

實驗二

在實驗2a-c中，文章根據上面介紹的三個規範基線評估了人工智慧設計的HCRM （Human Centred Redistribution Mechanism），發現HCRM比三條基線都更受歡迎（圖1a-c）。我們將玩家隨機分為五種稟賦條件，其中一個正面玩家獲得10個硬幣稟賦，三個反面玩家獲得的數量∈{2，4，6，8，10}。

與嚴格的平等主義和自由意志主義相比，人工智慧設計的機制在所有五種稟賦分配測試中也更受歡迎，從完全平等到最不平等的稟賦條件[ （10，2，2，2）意味著衡量財富不平等的指標—— 基尼係數為0.38。在這些條件下，它的投票份額從56.0%到67.0%反對平等主義，從57.5%到66.7%反對自由意志主義。儘管HCRM在完全平等（64.5%）和中度不平等（稟賦（10，8，8，8）和（10，6，6，6）] 下得票率為54.5%的情況下總體上更受青睞，但在最不平等的條件下，HCRM和自由平等主義之間的投票偏好沒有可靠的差異（HCRM的得票率為47.4%），這表明在最不平等的條件下，自由平等主義的再分配提供了與HCRM同樣好的選擇。

實驗三

總體而言，57.2%的參與者更喜歡HCRM而不是RM （rational mechanism）（圖1d）。RM在不平等稟賦下學會了一個激進的策略，忽略了頭部參與者，並主要向尾部參與者支付。儘管尾部參與者與頭部參與者的比例有利，但是，即使在最不平等的稟賦條件下，這也是不成功的，因為頭部參與者迅速停止了對所有人（包括尾部參與者）的不利影響，導致整體群體剩餘低於HCRM。

圖1. 不同稟賦和競爭機制下的整體投票份額

RL機制設計者可以被描述為一個二維曲面，將頭部和尾部玩家的相對貢獻對映到他們的收益份額（圖2a）。RL設計的機制會受到人類玩家的歡迎，是因為RL發現了一種混合機制，它避開了傳統上提出的再分配方案，這種再分配方案強調個人的自由裁量權，而不是資源分配（自由意志主義）或集體平等（嚴格的平等主義）。

HRCM奉行一種廣泛的自由平等主義政策，試圖通過對參與者的貢獻與捐贈的比例進行補償，來縮小先前存在的收入差距。換句話說，這一機制不是簡單地最大化效率，而是漸進式的：它以初始稟賦較高的人為代價，促進了那些在財富上處於劣勢的人獲得選舉權。通過這樣做，它在競爭機制中實現了生產率（盈餘）和平等（基尼係數）之間的有利平衡（圖2b）；然而，與自由平等主義不同的是，它幾乎不會給玩家任何回報，除非他們貢獻大約一半的捐贈（圖2c）。換句話說，RL有效地發現，面對社會困境的人類更喜歡允許制裁搭便車者的機制。主體因此學會了一種政策，這種政策不容易被指定為分配正義的特定哲學，而是創造性地結合了來自各個政治派別的想法。

圖2. HCRM 機制分析

實驗四

文章探究受過訓練的人類玩家是否能夠設計出像HCRM那樣受歡迎的機制。研究首先招募了61名之前的玩家，並在大約1個小時的時間內訓練他們，以便將資金重新分配給虛擬公民，從而最大化選票，然後我們招募了另外一組新的人類玩家（n = 244）在HCRM下玩一場遊戲，在訓練有素的人類裁判下玩另一場遊戲。這些人類選手強烈傾向於HCRM而不是人類裁判（62.4%的人投票支援HCRM）。

圖3. 人類裁判的實驗結果

3. 總結

人工智慧系統有時會因學習政策可能與人類價值觀不相容而受到批評，而這種“價值對齊”問題已成為人工智慧研究的主要關注點。該研究方法的一個優點是，人工智慧直接學習以最大化一組人的陳述偏好（或投票）。這種方法可能有助於確保人工智慧系統不太可能學習不安全或不公平的政策。事實上，當我們分析人工智慧發現的政策時，它融合了人類思想家和專家先前提出的解決再分配問題的想法。

首先，人工智慧選擇根據人們的相對貢獻而不是絕對貢獻來重新分配資金。這意味著在重新分配資金時，主體會考慮每個玩家的初始資金，以及他們的出資意願。其次，人工智慧系統特別獎勵了相對貢獻更大的玩家，也許會鼓勵其他人這樣做。重要的是，人工智慧只是通過學習最大化人類投票來發現這些政策。因此，該方法確保人類保持“迴圈”，並且人工智慧產生與人類相容的解決方案。

通過要求人們投票，該研究利用多數民主原則來決定人們想要什麼。儘管它具有廣泛的吸引力，但人們普遍承認，民主伴隨著一個警告，即大多數人的偏好要高於少數人的偏好。該研究確保了——就像在大多數社會中一樣——少數群體由更慷慨的捐贈者組成，但是需要做更多的工作來理解如何權衡多數和少數群體的相對偏好，通過設計允許所有投票的民主制度。

計算社會科學讀書會第二季

計算社會科學作為一個新興交叉領域，越來越多地在應對新冠疫情、輿論傳播、社會治理、城市發展、組織管理等社會問題和社科議題中發揮作用，大大豐富了我們對社會經濟複雜系統的理解。相比於傳統社會科學研究，計算社會科學廣泛採用了計算正規化和複雜系統視角，因而與計算機模擬、大資料、人工智慧、統計物理等領域的前沿方法密切結合。為了進一步梳理計算社會科學中的各類模型方法，推動研究創新，集智俱樂部發起了計算社會科學系列讀書會。

新一季【計算社會科學讀書會】由清華大學羅家德教授領銜，卡內基梅隆大學、密歇根大學、清華大學、匹茲堡大學的多位博士生聯合發起，自2022年6月18日開始，持續10-12周。本季讀書將聚焦討論Graph、Embedding、NLP、Modeling、Data collection等方法及其與社會科學問題的結合，並針對性討論預測性與解釋性、新冠疫情研究等課題。讀書會詳情及參與方式見文末，歡迎從事相關研究或對計算社會科學感興趣的朋友參與。

詳情請見：

資料與計算前沿方法整合：計算社會科學讀書會第二季啟動

「其他文章」