在目標檢測中如何解決小目標的問題?

語言: CN / TW / HK

導讀

本文介紹了一些小目標物體檢測的方法和思路。

在深度學習目標檢測中,特別是人臉檢測中,由於解析度低、影象模糊、資訊少、噪聲多,小目標和小人臉的檢測一直是一個實用和常見的難點問題。然而,在過去幾年的發展中,也出現了一些提高小目標檢測效能的解決方案。本文將對這些方法進行分析、整理和總結。

影象金字塔和多尺度滑動視窗檢測

一開始,在深學習方法成為流行之前,對於不同尺度的目標,通常是從原始影象開始,使用不同的解析度構建影象金字塔,然後使用分類器對金字塔的每一層進行滑動視窗的目標檢測。

圖片

在著名的人臉檢測器MTCNN中,使用影象金字塔法檢測不同解析度的人臉目標。然而,這種方法通常是緩慢的,雖然構建影象金字塔可以使用卷積核分離加速或簡單粗暴地縮放,但仍需要做多個特徵提取,後來有人借其想法想出一個特徵金字塔網路FPN,在不同層融合特徵,只需要一次正向計算,不需要縮放圖片。它也被應用於小目標檢測,這將在後面的文章中討論。

簡單,粗暴和可靠的資料增強

通過增加訓練集中小目標樣本的種類和數量,也可以提高小目標檢測的效能。有兩種簡單而粗糙的方法:

  • 針對COCO資料集中含有小目標的圖片數量較少的問題,使用過取樣策略:

圖片

不同取樣比的實驗。我們觀察到,不管檢測小目標的比率是多少,過取樣都有幫助。這個比例使我們能夠在大小物體之間做出權衡。

  • 針對同一張圖片中小目標數量少的問題,使用分割mask切出小目標影象,然後使用複製和貼上方法(當然,再加一些旋轉和縮放)。

圖片

通過複製貼上小目標來實現人工增強的例子。正如我們在這些例子中所觀察到的,貼上在同一幅影象上可以獲得正確的小目標的周圍環境。

在Anchor策略方法中,如果同一幅圖中有更多的小目標,則會匹配更多的正樣本。

圖片

與ground truth物體相匹配的不同尺度anchor示意圖,小的目標匹配到更少的anchor。為了克服這一問題,我們提出通過複製貼上小目標來人工增強影象,使訓練過程中有更多的anchor與小目標匹配。

特徵融合FPN

不同階段的特徵圖對應不同的感受野,其所表達的資訊抽象程度也不同。

淺層特徵圖感受野小,更適合檢測小目標,深層特徵圖較大,更適合檢測大目標。因此,有人提出將不同階段的特徵對映整合在一起來提高目標檢測效能,稱之為特徵金字塔網路FPN。

圖片

(a)利用影象金字塔建立特徵金字塔。特徵的計算是在每個影象的尺度上獨立進行的,這是很緩慢的。(b)最近的檢測系統選擇只使用單一尺度的特徵以更快地檢測。另一種選擇是重用由ConvNet計算出的金字塔特徵層次結構,就好像它是一個特徵圖金字塔。(d)我們提出的特徵金字塔網路(FPN)與(b)和©一樣快,但更準確。在這個圖中,特徵圖用藍色輪廓線表示,較粗的輪廓線表示語義上較強的特徵。

由於可以通過融合不同解析度的特徵圖來提高特徵的豐富度和資訊含量來檢測不同大小的目標,自然會有人進一步猜測,如果只檢測高解析度的特徵圖(淺層特徵)來檢測小人臉,使用中解析度特徵圖(中間特徵)來檢測大的臉。

圖片

SSH的網路結構

合適的訓練方法SNIP, SNIPER, SAN

在機器學習中有一點很重要,模型預訓練的分佈應該儘可能接近測試輸入的分佈。因此,在大解析度(如常見的224 x 224)下訓練的模型不適合檢測小解析度的影象,然後放大並輸入到模型中。

如果輸入的是小解析度的影象,則在小解析度的影象上訓練模型,如果沒有,則應該先用大解析度的圖片訓練模型,然後再用小解析度的圖片進行微調,最壞的情況是直接使用大解析度的影象來預測小解析度的影象(通過上取樣放大)。

因此,在實際應用中,對輸入影象進行放大並進行高速率的影象預訓練,然後對小影象進行微調比針對小目標訓練分類器效果更好。

圖片

所有的圖都報告了ImageNet分類資料集驗證集的準確性。我們對48、64、80等解析度的影象進行上取樣,在圖(a)中繪製出預訓練的ResNet-101分類器的Top-1精度。圖(b、c)分別為原始影象解析度為48,96畫素時不同cnn的結果。\

更密集的Anchor取樣和匹配策略S3FD, FaceBoxes

如前面的資料增強部分所述,將一個小目標複製到圖片中的多個位置,可以增加小目標匹配的anchor數量,增加小目標的訓練權重,減少網路對大目標的偏置。同樣,在逆向思維中,如果資料集已經確定,我們也可以增加負責小目標的anchor的設定策略,使訓練過程中對小目標的學習更加充分。

例如,在FaceBoxes中,其中一個貢獻是anchor策略。

圖片

Anchor變的密集例子。為了清晰起見,我們只對一個感受野中心(即中央黑色網格)密集化錨點,並只給對角錨點上色。

Anchor密集化策略,使不同型別的anchor在影象上具有相同的密度,顯著提高小人臉的召回率。

總結

本文較詳細地總結了一般目標檢測和特殊人臉檢測中常見的小目標檢測解決方案。

英文原文:https://medium.datadriveninvestor.com/how-to-deal-with-small-objects-in-object-detection-44d28d136cbc