ECCV2022 Oral Unicorn: Towards Grand Unification of Object Tracking

語言: CN / TW / HK

本文主要介紹一下我們最近的一篇unifying object tracking的工作:

Towards Grand Unification of Object Tracking

目標跟蹤領域主要可分成以下四項子任務:單目標跟蹤(SOT),視訊目標分割(VOS),多目標跟蹤(MOT),多目標跟蹤與分割(MOTS)。由於不同子任務在定義與設定上的差異,絕大多數現有跟蹤演算法都是被設計用來解決單一或者部分子任務的,缺乏向其他任務的拓展能力。顯然,他們的長期割裂狀態對於跟蹤領域的發展並不友好。

我們提出了一種目標跟蹤任務的大統一模型Unicorn, 該模型只需一套網路結構、一套模型引數即可同時完成四種跟蹤任務Unicorn首次實現了目標跟蹤網路結構與學習正規化的大一統 ,在不同跟蹤任務上使用完全相同的輸入、骨幹網路、特徵嵌入、以及預測頭部。Unicorn在來自四種跟蹤任務的 8個富有挑戰性的資料集 (LaSOT, TrackingNet, MOT17, BDD100K, DAVIS-16, DAVIS-17, MOTS, BDD100K MOTS)上取得了優異的表現,在多個數據集上重新整理了State-of-The-Art。

Paper: https:// arxiv.org/abs/2207.0707 8

Code: https:// github.com/MasterBin-II AU/Unicorn

1. Motivation

目標跟蹤是計算機視覺中的基本任務之一,其旨在建立幀之間的畫素級或例項級對應關係,並通常以box或mask的形式輸出軌跡。根據不同的應用場景,目標跟蹤問題主要分成了四個獨立的子任務:SOT、MOT、VOS和MOTS。這導致大多數跟蹤方法都是僅針對其中一個或部分子任務而設計的,每個領域的各自發展導致了長期的方法隔離和資料隔離,這種分裂的局面帶來了以下缺點:

  • 跟蹤器可能過擬合特定子任務的特性,缺乏向其他任務的泛化能力。
  • 獨立的模型設計導致冗餘的引數。例如,基於深度學習的跟蹤器通常採用類似的backbone結構,但獨立的跟蹤模組設計理念阻礙了潛在的引數複用的可能。

本質上無論是SOT/VOS還是MOT/MOTS都是時序空間上特徵的關聯,區別只是instance的數量。那麼很自然地要問一個問題:是否所有的主流追蹤任務都可以用一個統一的模型來解決呢?儘管目前已經有一些工作(例如SiamMask、TraDes等)嘗試用一個網路同時完成SOT&VOS或者MOT&MOTS,但是SOT與MOT之間始終難以統一。我們發現,阻礙SOT與MOT統一的主要障礙有以下三點:

  1. 被跟蹤物體的特性不同。 MOT 通常要跟蹤 幾十甚至幾百個特定類別的例項 。 SOT 需要跟蹤 參考幀中給定的一個目標,無論目標屬於哪個類別
  2. 需要的對應關係不同。 SOT 需要將目標與背景區分開來。MOT 需要將當前檢測到的物件與之前的軌跡相匹配。
  3. 模型的輸入不同。大多數 SOT 方法為了節省計算量並過濾潛在的干擾物,都是以一個 小的搜尋區域 作為輸入。 然而,MOT演算法為了將例項儘可能全地檢測到,通常以 高解析度的全圖 作為輸入。

Unicorn提出了兩個核心設計: 目標先驗(target prior)畫素級對應關係(pixel-wise correspondence) 來攻克以上挑戰。 具體來說:

  1. 目標先驗作為檢測頭的一個額外輸入,是在四個任務之間切換的開關。對於 SOT&VOS,目標先驗是通過傳播(propagation)得到的目標圖,使預測頭部能夠專注於跟蹤的目標。 對於 MOT&MOTS,通過將目標先驗設定為零,預測頭部可以自然地退化成常規的特定類別的檢測頭部。
  2. 畫素級對應關係是參考幀和當前幀的所有點對之間的相似度。SOT 對應關係和MOT對應關係都可以看作是畫素級對應關係的子集。
  3. 藉助目標先驗和精確的的畫素級對應關係,SOT可以不再依賴搜尋區域,從而和MOT一樣接收全圖作為輸入。

2. Unicorn

Unicorn的整體結構主要包含三個組成部分(1)統一的輸入和骨幹網路(2)統一的特徵嵌入(Unified Embedding)(3)統一的預測頭部(Unified Head)。

2.1 Unified Embedding

目標跟蹤的核心任務之一是在視訊幀之間建立準確的對應關係。具體來說:

  • 對於SOT&VOS,畫素級對應關係(pixel-wise correspondence)將使用者指定的目標從參考幀(通常是第一幀)傳播到第 t 幀,為最終的框或掩碼預測提供強大的先驗資訊。
  • 對於 MOT&MOTS,例項級對應關係(instance-level correspondence)將第 t 幀上檢測到的例項與參考幀(通常是第 t-1 幀)上的現有軌跡相關聯。

畫素級對應關係是參考幀 reference frame embedding(HW x C) 和當前幀current frame embedding (HW x C) 的兩兩點乘(HW x HW) 。同時,由於instance embedding是在frame embedding上從例項所在位置處提取得到的,因此 例項級對應關係可以看作是畫素級對應關係的子矩陣!即四種跟蹤任務可以共享統一的Embedding!

Embedding的訓練loss應該同時適用於四種跟蹤任務的需要:

  • 對於SOT&VOS來說,雖然幀間的畫素級對應關係沒有現成的標籤,但是可以通過監督傳播後的target map來提供監督訊號,即target map在目標所在區域的值等於1,其他區域的值為0。
  • 對於MOT&MOTS來說,例項級對應關係可通過標準的對比學習正規化得到,對於參考幀和當前幀上的例項,屬於同一ID的為正樣本,其餘的為負樣本。

2.2 Unified Head

為了實現目標跟蹤的大一統,另一個重要且具有挑戰性的問題是 如何為四種跟蹤任務設計一個統一的預測頭部 。 具體來說,MOT需要檢測特定類別的目標,而SOT 需要檢測參考幀中給定的任何類別的目標。為了彌補這一差異,Unicorn 為檢測頭部引入了一個額外的輸入,稱為目標先驗(target prior),無需任何進一步修改,Unicorn 就可以通過這個統一的頭部檢測四項任務所需的各種目標。

如圖所示,通過傳播得到的當前幀目標圖的估計可以提供關於要跟蹤目標狀態的強先驗資訊,這啟發我們在檢測 SOT&VOS 的目標時將其作為目標先驗。同時,在處理 MOT&MOTS 時,我們可以簡單地將目標先驗設定為零。

2.3 Training and Inference

訓練 :整個訓練過程分為兩個階段:SOT-MOT聯合訓練和VOS-MOTS聯合訓練。 在第一階段,使用來自 SOT&MOT 的資料對網路進行端到端優化。 在第二階段,固定其他引數,新增掩碼分支,並使用來自 VOS&MOTS 的資料對網路進行優化。

測試: 在測試階段,對於 SOT&VOS,參考目標圖只需在第一幀生成一次,並在後續幀中保持固定。 Unicorn 直接挑選置信度最高的框或掩碼作為最終的跟蹤結果,無需像餘弦窗那樣對超引數敏感的後處理。 此外,Unicorn 在每一幀上只需要執行一次骨幹網路和計算一次對應關係,當有N個要跟蹤的目標時,只需執行輕量級預測頭N 次,而不是將整個網路執行N次 ,具有更高的效率。 對於 MOT&MOTS,Unicorn 檢測給定類別的所有目標並同時輸出相應的例項嵌入。在BDD100K 和 MOT17上,資料關聯分別採用的是基於Embedding和運動模型的匹配策略。

3. Performance

我們在來自四項跟蹤任務的8個數據集上對Unicorn進行了評測。

3.1 SOT

Unicorn在兩個大規模SOT資料集LaSOT和TrackingNet上均做到了state-of-the-art,Success指標相比於之前最優的方法STARK分別提升了1.4%和1.0%。

3.2 MOT

在MOT17資料集上,Unicorn在MOTA,IDF1,HOTA三項重要跟蹤指標上均做到了state-of-the-art。

在BDD100K資料集上,Unicorn在mMOTA,mIDF1兩項關鍵跟蹤指標上均大幅領先之前效果最好的方法QDTrack,mMOTA和mIDF1兩項指標分別有4.6%和3.2%的提升。

3.3 VOS

在DAVIS16和DAVIS17資料集上,第一幀無需精確的mask標註、僅使用box初始化,Unicorn仍取得了不錯的成績。在DAVIS16-17上,Unicorn相比於同樣使用box初始化的SiamMask來說,J&F指標有17.6%和12.8%的提升!此外,儘管只利用box初始化,Unicorn的甚至也能和一些用mask初始化的方法(UniTrack,RANet等)相媲美。

3.4 MOTS

在MOTS Challenge資料集上,Unicorn在sMOTSA和IDF1兩項重要跟蹤指標上大幅領先於之前的方法,例如PointTrackV2、TrackFormer等。

在BDD100K MOTS資料集上,相比之前效果最好的PCAN,Unicorn在mMOTSA和mMOTSP兩項指標上分別有2.2%和1.0%的提升。

4. Demo

以下Demo展示了Unicorn在SOT、MOT、VOS、MOTS四項任務上的一些視覺化效果。以下結果均使用同一套網路結構和模型引數。

5. Conclusion

Unicorn首次統一了四專案標跟蹤任務的網路結構與學習正規化,用一套統一的結構和引數在8個富有挑戰性的資料集上取得了亮眼的表現。我們希望Unicorn能夠為整個追蹤領域帶來一些啟發,朝著通用視覺模型這一目標邁出紮實的一步。