北京大學王亦洲分享:基於對抗博弈的主動跟蹤演算法研究

語言: CN / TW / HK

IEEE x ATEC

IEEE x ATEC科技思享會是由專業技術學會IEEE與前沿科技探索社群ATEC聯合主辦的技術沙龍。邀請行業專家學者分享前沿探索和技術實踐,助力數字化發展。

在社會數字化程序中,隨著網路化、智慧化服務的不斷深入,伴隨服務衍生出的各類風險不容忽視。本期分享會的主題是《網路欺詐的風險與對抗》。五位嘉賓將從不同的技術領域和觀察視角,圍繞網路欺詐場景下的風險及對抗技術展開分享。

以下是王亦洲教授的演講。

演講嘉賓 | 王亦洲

北京大學博雅特聘教授、前沿計算研究中心副主任

ATEC科技精英賽高階諮詢委員會專家

《基於對抗博弈的主動跟蹤演算法研究》

大家好,我是北京大學的王亦洲。今天我將主要介紹如何構建多智慧體博弈機制,以實現魯棒的主動目標跟蹤。具體而言,我將先簡要介紹主動目標跟蹤任務和虛擬環境等前期工作,再重點介紹四種多智慧體博弈機制用於主動目標跟蹤。

主動跟蹤簡介

主動跟蹤在日常生活中是一種較為常見的現象和技能,比如自動駕駛的跟車、無人機在天空跟蹤一些目標、影片監控時鎖定一些目標、雲臺照相機跟蹤動作等。在計算機視覺領域,主動跟蹤也是一個比較前沿的研究課題。但要真正實現主動目標跟蹤,會遇到很多不同的挑戰。比如,在錄製一些比較驚險刺激的特技鏡頭時,攝影師不僅要讓相機對準演員,還要同步適應複雜的地形環境,調動四肢跟隨演員移動,其技術難度可能要比演員表演特技還高,並且在整個過程中,從感知到動作都需要十分快速精準執行。然而,這對於現階段的機器人而言,幾乎是一件不可能完成的任務。要真正實現複雜場景下的主動目標,我們的模型需要適應多樣的工作環境(包括不同的天氣、光照條件);還要克服障礙物遮擋(即避障),比如遇到障礙物時,要找到最短路徑繞過障礙物;也要克服動態干擾物的影響,避免混淆。如果是多相機跟蹤的場景,還需考慮如何實現高效的多智慧體協作,這些都是主動跟蹤的一些挑戰。傳統的方法,主動跟蹤分成兩個部分,一個是叫這個passive tracker,演算法先對這個輸入的影象鎖定裡面的目標物體,比如以bounding box的形式,根據bounding box的運動,然後再輸入到控制器裡面,調整照相機的運動。

我們提出的方法,是一個端到端(End-to-End)跟蹤方法。輸入影象序列,直接輸出動作。感知和決策可以同步優化,互相適應,對應的中間表示也會更加緊湊。要訓練這種端到端的感知—決策網路,當前流行的有兩種方法,一種是模仿學習Imitation Learning(IL),一種是強化學習Reinforcement Learning(RL)。模仿學習樣本效率會高一些,但是需要引入專家資料進行訓練,且不可避免的存在資料分佈的偏差,模型的泛化性會比較差。對於跟蹤模型來說,模型的泛化能力是至關重要的。因此我們採用強化學習,我們只需要設計一個簡單的獎賞函式,機器人在環境中自主探索,就可以在試錯中學習技能。

有效虛擬環境的構建

我們讓機器人在一個場景中運動時,如果是一個真實的場景,因為機器人的成本高,機器人在場景中運動時或許會造成一些損壞,實驗的負擔也比較大,所以代價非常高昂。我們提出構建UnrealCV虛擬環境,讓機器人在裡面進行主動學習,我們可以從中獲取高逼真的視覺觀測、精準的ground truth、以及進行實時的互動,包括多智慧體的互動。這個專案已經開源。因為我們日常生活中的環境是多變的,在近真實的環境當中可以模擬日常生活環境的一些變化,不光是室內的還有室外的、室外天氣的變化、室內光照的變化,環境的各種appearance、各種texture,甚至還有物理屬性都可以調整。在虛擬環境中不僅可以學到地球上的物理,甚至可以學習火星上、月球上的物理。所以這種近真實的環境,儘管可能是對真實環境的一種建模、某種意義上的一種簡約,但其實它有更豐富的potential,能夠更多地改變環境,讓機器人能夠適應各種變化,在這裡面學的技能有可能泛化能力更強。因此,我們認為機器人或智慧體所處的環境複雜性決定它最終訓練出來的智慧水平。

下面我將簡單介紹一下,把認知心理學的一些機制引入到主動跟蹤場景下,提高跟蹤器的跟蹤水平的一系列工作。我將介紹四種工作:第一種是一跟一的跟蹤;第二種還是一跟一,但是會有一些和目標非常相似的干擾物進來;第三個工作是多個攝像頭跟蹤一個目標;最後一個是多跟多,比如N個攝像頭跟M個目標物體。

一對一的跟蹤策略

首先介紹一跟一。在一跟一里面我們引入了Theory of Mind(心智理論),心理學的一種機制,它是人類所具有的能夠認知別人的心理狀態的一種本領,比如我在跟別人交流過程中我能夠知道對方的信念、意圖、甚至他的知識。有了這種能力,能夠幫助多智慧體提高交流的效率。我們將這種機制應用到主動跟蹤的過程當中。這裡面的目標和跟蹤器,是兩個進行競爭的agents。目標的任務就是逃跑,從跟蹤者的視野當中逃掉;跟蹤者要始終鎖定目標,他們倆成了一個博弈對。我們在這裡面引入了Theory of Mind,產生一個更聰明的逃跑者,它不光要根據自己看到的環境來選擇路徑,他還能夠知道跟蹤者現在所觀察到的一些景象,猜測跟蹤者的策略是什麼。即在腦子裡猜想你會怎麼跟蹤我。把Theory of Mind引入到跟蹤的博弈當中,我們希望能夠訓練出Target有更好的擺脫策略。因為它們的能力都是從零開始同步增長的,逃跑者與追蹤者在學習的過程當中能力此消彼長。這個博弈機制是非對稱的,因為我們的最終目標是為了訓練跟蹤器,因此我們將圍繞如何訓練一個更適合跟蹤器學習的目標模型改進我們的對抗機制,包括了獎賞函式結構和目標的模型設計。

要實現競爭機制,最關鍵的是要設計獎賞函式(Reward Structure)。一般來說,純對抗競爭的獎賞函式,就是一個零和獎賞結構。但如果是零和博弈的話,目標會在一開始就跑的很遠,這反而導致跟蹤器學習效率降低。因此,我們考慮當目標移動到觀測範圍外,將在原來的基礎上增加一個額外的懲罰項,懲罰項的取值取決於目標與跟蹤器的觀測邊界的距離。為了讓目標能夠學到有針對性的對抗策略,我們進一步提出了tracker-aware target。它的設計思想就是孫子兵法中的知己知彼,百戰不殆的思想。如果從認知心理學的角度來說,就是要去理解預估對手的mental state/ intention,只要比對手多一階的思考,就可以找到有效的對抗策略。比如說,當跟蹤器根據影象推測估計目標要從畫面中心往左走時,它就會傾向於向左轉。如果此時我們的目標能多思考一階,能夠想到跟蹤器有向左轉的傾向,那麼它就可以反過來輸出一個向右轉的動作,就可以導致跟蹤誤差增大。具體實現時,我們就讓目標除了其自身的視覺觀測外,還額外獲得了跟蹤器的觀測和動作輸出作為模型的輸入。我們在這裡還引入了一個輔助任務,也就是預測跟蹤器的即時獎賞值,來對跟蹤器的動態特性進行隱式的建模。我們把這個演算法放到了包括城市環境、下雪的村莊、地下車庫、花園以及城市街道的近真實的虛擬環境中,隨後發現,儘管我們是在不真實的虛擬環境下訓練的,但是遷移到近真實的虛擬環境下,還是能夠非常好的跟蹤到目標物體。

一對多的跟蹤策略

接下來還是一對一的跟蹤,但是有了干擾者的參與,也就形成了一種一對多的博弈機制。例如在足球直播中,跟蹤器會將邊線裁判的光頭誤識別成足球。同時,我們在實驗中發現,現有的SOTA模型也十分容易被場景中相近的物體誤導迷惑,最終導致跟丟。針對此問題,我們提出了一種混合博弈的解決策略,裡面包括了Targets和Tracker的競爭關係,還有干擾者和Targets之間的合作關係,即他們要合作起來一起欺騙Tracker。Reward方面,Targets和Tracker,可以是零和博弈或者是前面介紹的混合Reward Structure;Distractor和Target 之間形成一個合作策略。Distractors的獎賞是它是不是能夠吸引Tracker的注意,是不是跑到了Tracker視野裡比較中心的位置,越靠近中心越說明Tracker把它認成了Target,它這時候獲得的Reward就更高。所以在這種Reward Structure下面,我們訓練Tracker、Target和Distractors,它們各有各的策略。我們採用了兩種訓練方法,一種是在抽象的環境下先訓練Meta Policies,有了這個Meta Policies以後,它作為一個teacher,這時我們引入視覺輸入來訓練作為student在真實視覺環境下面如何跟蹤。這時候student的跟蹤策略要和作為teacher的Meta Policies的策略相接近。我們用K-L Divergence來描述他們的差異,我們要minimize這個差異,通過這兩個訓練過程,最後訓練出三種角色各自的策略。我們發現在訓練過程中,出現的干擾現象越來越多。也就是說Distractors越來越會參與干擾了,它的干擾技能提升了。一些SOTA或者一些現有的先進方法在這個過程當中,隨著干擾的增多,它們的performance就下降了。我們提出的這個方法,它的performance不太受干擾的一個影響。在混合博弈下面,最後訓練出的Tracker和現有的一些方法有明顯的優勢。

多對一的跟蹤策略

接下來是多個攝像機跟蹤一個Target,這種場景通常發生在一個video surveillance的情況下。在此場景裡有一個可疑人物或目標人物,我們在大範圍場景下面佈置多臺攝像頭,場景裡面非常複雜、容易有這種障礙物,它能夠利用這些障礙物進行隱蔽,這時能不能在多個攝像頭下始終不把它給丟掉。這裡我們引用了一種心理學的機制,叫Herd mentality(羊群效應),即一種從眾心理,就是一個人在人群中決策時,往往會受到多數人的干擾,產生從眾心理。假如在這個環境中,我們佈置了四個攝像頭,如果有三臺攝像頭能夠比較好地看到Target,即使有一個攝像頭因為遮擋的原因目前看不到,它根據其他三個攝像頭的指向,也能把這個攝像頭的角度瞄準到他們指向的位置。這時候,當Target出現時,它就能夠很快地恢復跟蹤,這樣對整個系統的跟蹤的穩定性會有所提升。對於這種情況,我們設計了一個模型。跟蹤模式分為兩種,在可見目標情況下采用基於視覺的跟蹤。看不到的情況下,會根據其它攝像頭的pose指向的位置決定該跟蹤器所指向的位置,有一個switcher決定採用哪個跟蹤模式。我們在這個環境當中把它部署下去,發現跟蹤的效果也非常好。

多對多的跟蹤策略

最後看一下多個攝像頭跟蹤多個目標的模型。它其實是解決一個coverage的問題,比如四個攝像頭要跟蹤六個物體時,在資源有限情況下,能夠最大程度把這個物體給覆蓋住。這裡面我們採取的機制是hierarchical機制。在社會形成結構的過程中,有一些是leader,有一些是稍微處在底層一點的執行者。這種分層機制可以對複雜任務進行結構化分解,具有分工明確、理性決策、權責劃分清楚等優點。因此,我們考慮借鑑這種機制,設計一種可計算多智慧體分層模型。該框架主要分兩層,包括了一個集中式的協調者(coordinator)和多個分散式的執行者(executor)。當執行時,協調者收集各個執行者的觀測資訊,進行全域性規劃,為每個執行者分配特定的任務目標, 也就是指定需要跟蹤的具體目標;每個執行者在分配到具體任務以後,通過採取一系列基本動作(即左轉/右轉/保持不變)來成指定的跟蹤任務。然後重複這兩個步驟。這樣,目標覆蓋問題將分解為不同時間尺度的兩個子任務,也就是目標分配和目標跟蹤。此時,協調者和執行者均可以直接採用當前流行的單智慧體強化學習方法進行訓練優化。這裡,協調者的團隊獎賞取決於覆蓋率;每個執行者的獎賞只跟相機與被分配的目標之間的角度偏差有關。

為了實現可擴充套件泛化的分層結構,我們仍需要克服兩個挑戰:1)對於協調者,需要能夠靈活處理可變數量的感測器和目標之間分配,因為不同場景下相機網路和目標分佈會有很大差異;2)對於執行者,需要能夠在給定任何目標組合時,都能表現良好。就像軍隊中的士兵要無條件服從上級命令,執行任務。為此,我們採取了一系列實用方法來應對這些挑戰,採用了自注意力模組來處理變長的輸入並獲得一個與輸入順序無關的狀態表示。為了更好的估計全域性價值,我們對每一對感測器——目標分配的邊際貢獻(marginal contribution)進行了近似估計(approximate marginal contribution, AMC),從而更精確地估計和分解全域性價值,引導協調者學習更有效的分配策略。對於執行者,提出了基於目標條件的過濾器以去除與被分配目標無關的觀測資訊,從而提高執行者策略的魯棒性。考慮到訓練的穩定性,整體訓練策略採用了二階段分步訓練方式進行。對目標集進行取樣,生成偽目標來訓練執行者策略;然後利用現有的執行者策略來訓練協調策略。從而避免共同訓練時,協調者和執行者因探索時不可避免的隨機性導致訓練不穩定。

最後,我們把Theory of Mind也引入到這個工作裡面。這種猜想和協商的機制,我們管它叫ToM2C(Target-oriented Multi-agent Communication and Cooperation with Theory of Mind)。要解決一個問題,給定輸入以後,我們通過融合其他人的輸入來猜想其他人想跟蹤的目標,再有選擇地和目標不一致的物件進行溝通,最後在Decision Maker的module來最終決定誰跟誰的策略,最終取得了非常好的跟蹤效果。

總 結

我們把心理學的認知機制和博弈論結合在一起來解決主動跟蹤問題,一系列工作取得了比較好的一個跟蹤效果。對於長期目標,我希望融合機器人學、博弈論、資訊理論、社會心理學等領域知識,最終構建多功能、會合作、有溫度的通用機器人,服務人類社會發展。我的報告就到此結束,謝謝大家。

雷峰網