RepPointv2:使用點集合表示來做目標檢測

語言: CN / TW / HK

導讀

無anchor方法中效果很好的一種。

目標檢測的目的是定點陣圖像中的目標,並提供它們的類標籤。作為計算機視覺中最基本的任務之一,它是許多視覺應用的關鍵組成部分,包括例項分割、人體姿態分析和視覺推理。目標檢測問題的重要性以及深度神經網路的快速發展導致了近年來的重大進展。

RepPoint和RepPointv2是近年來提出的目標檢測模型。這兩篇檢測論文讓我最大的收穫是對無錨目標檢測演算法的效能優勢有了一定的解讀,並朝著無錨目標檢測演算法的方向進行探索。

RepPointv2認為,雖然基於錨點的目標檢測演算法近年來表現出了良好的效能,但仍然過於粗糙。主要表現為檢測頭和分類頭從bbox中提取的特徵可能受到背景和雜亂語義資訊的影響。

圖片

RepPoints是一種新的目標檢測表示,它由一組點組成,這些點表示目標的空間範圍和語義上重要的區域性區域。該表示法通過基於矩形地形圖的弱定位監督和隱式識別反饋來學習。基於更豐富的RepPoints表示,我們開發了一個無錨目標檢測器,與使用邊界框相比,它能產生更好的效能。

假設我們正在對人體進行標記並進行人體檢測。如果這個人張開雙臂,為了儘可能地把人的目標框起來,標記好的bbox會介紹很多背景資訊。此外,如果人體區域周圍有大量的其他人或行人重疊,標記的方框就會包含大量的誤導性資訊。

因此提出了RepPoint的結構,通過在錨點中建立一系列自適應取樣點來代替完全取樣,即在正取樣區域中學習一組自適應取樣點來尋找表示。

圖片

提出的RPDet (RepPoints檢測器)概述。

我們採用特徵金字塔網路(feature pyramid networks, FPN)作為骨幹網路,為了便於說明,我們只繪製了FPN特徵圖的一個比例的後續管道。注意FPN特徵對映的所有尺度共享相同的後面的網路結構和相同的模型權重。

首先,使用主幹+FPN提取輸入影象的多層特徵,然後對FPN中的每個畫素點位置,使用RepPoint結構獲取FPN中的每個畫素點位置取樣點的偏移量,利用所述RepPoint組獲得的取樣點位置確定目標的粗定位檢測幀,然後將所述第一個RepPoint結構獲得的偏移量轉移到第二個RepPoint結構。兩個RepPoint結構獲得的偏移量相對於第一個RepPoint的偏移量疊加,得到的是每個位置的最終取樣點。並根據最終取樣點得到目標的最小邊界矩形。分類基於第一個RepPoint結構提供的取樣點所形成的目標邊界矩形。

解釋說,在FPN中使用FPN的意義在於,不同尺度的目標自然會歸於不同層次的特徵圖,對於小目標使用更高的解析度的特徵圖,它還減少了兩個同樣尺度的目標落在同一個中心點的概率,因此大大減少了目標中心點重疊的發生。

在RepPointV2中,作者希望繼續提高網路的迴歸效能,從而提高整個網路的效能。

圖片

一般的融合方法概述。將驗證模組(角點和前景)的輸出與輸入特徵相結合,提高基於迴歸的目標定位效能,並進一步採用聯合推理。

與V1版本的改進相比,作者首先參照驗證演算法得到當前輸入影象的前背景熱圖和角點影象,然後利用這個輔助分支與之前RPDet計算的主分支相結合來提高效能,類似於FCOS的objectness分支。

然而,兩者之間也有差異。FCOS中的objectness分支是對最終網路生成的多個定位幀的加權篩選,目的是去除冗餘的假陽性定位幀,而REpPointv2中的auxiliary分支考慮到RepPoint結構是在一定範圍內選擇特徵點。

總結

相對於v1論文,RepPointv2論文主要通過增加輔助分支來加強定位能力。輔助分支所做的主要工作是提高RepPoint提取取樣特徵點的能力。所採用的方法是通過生成的前背景和角落熱度圖來達到參考索引的效果。

英文原文:https://medium.com/@nabil.madali/point-set-representation-for-object-detection-ae1cc132095a