CVPR 2022 Oral | 以人為中心的多功能多模態預訓練

語言: CN / TW / HK

時間 2022-09-03 21:30:10 我愛計算機視覺

主題: CVPR

關注公眾號，發現CV技術之美

本篇分享 CVPR 2022 Oral 論文『 Versatile Multi-Modal Pre-Training for Human-Centric Perception』，以人為中心的多功能多模態預訓練。

詳細信息如下：

論文鏈接：http://arxiv.org/abs/2203.13815
代碼：http://github.com/hongfz16/HCMoCo

以人為中心的感知在計算機視覺與圖形學應用中扮演着重要角色。但是這些應用通常需要大量的標註數據以達到較好的效果。而標註數據的成本非常高，尤其是密集標註例如分割和DensePose。因此，如圖一所示，我們希望有一個多功能的預訓練模型，作為一個基礎模型，用以數據高效的下游任務遷移。

為了達到這個目標，我們提出了 以人為中心的多模態對比學習框架HCMoCo （Human-Centric Multi-Modal Contrastive Learning），利用人體數據多模態的特點（RGB，深度圖，人體關鍵點），進行高效的人體表示學習。在研究中，我們面臨兩個挑戰，其一為多模態數據的密集表達預訓練此前並未被研究過，其二為如何高效地使用稀疏的人體數據，例如人體關鍵點。

圖一：以人為中心的感知任務的多功能多模態預訓練

為了解決這些挑戰，如圖二所示，我們設計了 層次化的對比學習目標 ，1）樣本級別的模態無關的表示學習；2）密集的樣本模態內部的對比學習；3）稀疏的人體結構指導的對比學習。通過層次化的對比學習，我們實現了模態無關的隱空間學習，並且隱空間的特徵是連續有序並且結構與語義上一致的。

圖二：HCMoCo層次化的對比學習

通過結合異構的數據集，HCMoCo提供的預訓練模型可以使用現有的特定任務下的人體數據以 實現高效的遷移學習。 如圖三所示，在四個不同模態的下游任務上，我們進行了充分的實驗，展現了HCMoCo的有效性，尤其是在數據有限的情況下。只需一次預訓練，我們將預訓練模型遷移到DensePose預測，RGB人體分割，深度圖人體分割和深度圖3D關鍵點預測這四個任務上。如下圖所示，HCMoCo的預訓練均超過了大家常用的ImageNet預訓練模型。更多的詳細結果請參見原論文。

圖三：HCMoCo在四個下游任務上實現了高效的遷移學習

此外，我們還通過 跨模態監督與模態缺失的推理，展現了HCMoCo的多樣性 。如圖四所示，通過HCMoCo的訓練框架，我們可以實現在RGB上進行人體分割的監督學習，在測試時輸入深度圖也可以進行分割。同理，我們也可以實現訓練時多模態同時訓練，但是測試時只輸入一種模態。Baseline方法均無法實現這兩個任務，而我們的方法則可以達到合理的效果。

圖四：HCMoCo在跨模態監督與測試中的應用

最後，我們還提出了 第一個完整人體的RGBD分割數據集NTURGBD-Parsing-4K ，如圖五所示。我們從NTURGBD-60/120中採樣了4000幀，進行了人工標註。

圖五：人體RGBD分割數據集，NTURGBD-Parsing-4K

END

歡迎加入「計算機視覺」交流羣:point_down:備註： CV

「其他文章」