CVPR 2022 Oral | 以人為中心的多功能多模態預訓練

語言: CN / TW / HK

關注公眾號,發現CV技術之美

本篇分享 CVPR 2022 Oral 論文 Versatile Multi-Modal Pre-Training for Human-Centric Perception』 ,以人為中心的多功能多模態預訓練。

詳細信息如下:

  • 論文鏈接:http://arxiv.org/abs/2203.13815

  • 代碼:http://github.com/hongfz16/HCMoCo

以人為中心的感知在計算機視覺與圖形學應用中扮演着重要角色。但是這些應用通常需要大量的標註數據以達到較好的效果。而標註數據的成本非常高,尤其是密集標註例如分割和DensePose。因此,如圖一所示,我們希望有一個多功能的預訓練模型,作為一個基礎模型,用以數據高效的下游任務遷移。

為了達到這個目標,我們提出了 以人為中心的多模態對比學習框架HCMoCo (Human-Centric Multi-Modal Contrastive Learning),利用人體數據多模態的特點(RGB,深度圖,人體關鍵點),進行高效的人體表示學習。在研究中,我們面臨兩個挑戰,其一為多模態數據的密集表達預訓練此前並未被研究過,其二為如何高效地使用稀疏的人體數據,例如人體關鍵點。

圖一:以人為中心的感知任務的多功能多模態預訓練

為了解決這些挑戰,如圖二所示,我們設計了 層次化的對比學習目標 ,1)樣本級別的模態無關的表示學習;2)密集的樣本模態內部的對比學習;3)稀疏的人體結構指導的對比學習。通過層次化的對比學習,我們實現了模態無關的隱空間學習,並且隱空間的特徵是連續有序並且結構與語義上一致的。

圖二:HCMoCo層次化的對比學習

通過結合異構的數據集,HCMoCo提供的預訓練模型可以使用現有的特定任務下的人體數據以 實現高效的遷移學習。 如圖三所示,在四個不同模態的下游任務上,我們進行了充分的實驗,展現了HCMoCo的有效性,尤其是在數據有限的情況下。只需一次預訓練,我們將預訓練模型遷移到DensePose預測,RGB人體分割,深度圖人體分割和深度圖3D關鍵點預測這四個任務上。如下圖所示,HCMoCo的預訓練均超過了大家常用的ImageNet預訓練模型。更多的詳細結果請參見原論文。

圖三:HCMoCo在四個下游任務上實現了高效的遷移學習

此外,我們還通過 跨模態監督與模態缺失的推理,展現了HCMoCo的多樣性 。如圖四所示,通過HCMoCo的訓練框架,我們可以實現在RGB上進行人體分割的監督學習,在測試時輸入深度圖也可以進行分割。同理,我們也可以實現訓練時多模態同時訓練,但是測試時只輸入一種模態。Baseline方法均無法實現這兩個任務,而我們的方法則可以達到合理的效果。

圖四:HCMoCo在跨模態監督與測試中的應用

最後,我們還提出了 第一個完整人體的RGBD分割數據集NTURGBD-Parsing-4K ,如圖五所示。我們從NTURGBD-60/120中採樣了4000幀,進行了人工標註。

圖五:人體RGBD分割數據集,NTURGBD-Parsing-4K

END

歡迎加入「計算機視覺 交流羣:point_down:備註: CV

「其他文章」