【論文解讀】ACoL:對抗互補學習,弱監督物體定位方法

語言: CN / TW / HK

我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第11篇文章,點選檢視活動詳情

導讀

無需標籤,定位物體的位置,弱監督物體定位的端到端的方法,超越CAM和Hide-and-Seek。

圖片

ACoL: Adversarial Complementary Learning

對抗補充學習弱監督目標定位,ACoL,由悉尼科技大學,伊利諾伊大學香檳分校和新加坡國立大學提出。摘要:

  • 弱監督目標定位(WSOL)是對目標進行定位,但沒有目標的包圍框標籤,只有影象級標籤,用於訓練。
  • 提出了一種簡單的網路結構,該結構包含兩個並行分類器,用於目標定位。前向傳遞的時候在分類的同時動態定位一些有區分性的目標區域
  • 這是一種對抗學習,兩個並行的分類器被迫利用互補的目標區域進行分類,最終共同生成完整的目標定位

1. ACoL: 網路結構

圖片

ACoL: 網路結構

  • 傳統上,深度分類網路通常利用特定類別的獨特模式進行識別,生成的物體定點陣圖只能突出目標物體的一小部分割槽域,而不能突出整個物體

提出的ACoL旨在通過對抗學習的方式發現整體的目標區域

1.1. ACoL結構

  • 提出的ACoL,包括三個組成部分,Backbone, Classifier AClassifier b
  • Backbone:一個全卷積網路,作為特徵提取器
  • 主幹網的特徵圖被輸入到以下並行分類分支。
  • 兩個分支包含相同數量的卷積層然後是GAP層和softmax層用於分類。

具體來說,將分類器B的輸入特徵在分類器A產生的可區分割槽域的指導下進行部分擦除。

  • 對分類器A的定點陣圖進行閾值分割,識別出可區分割槽域。
  • 然後將B分類器輸入特徵對映中的對應區域用0代替進行擦除,以實現對抗。
  • 更準確地說,大於閾值δ的區域被擦除。
  • 這樣的操作鼓勵分類器B利用目標物體的其他區域的特徵來支援影象級標籤。
  • 最後,將兩個分支產生的定點陣圖相結合,得到目標物件的整體定點陣圖。採用Max函式進行融合操作。
  • 整個過程是端到端訓練的。兩種分類器均採用交叉熵損失函式進行訓練。

1.2. VGGNet 和 GoogLeNet

  • 提出ACoL方法使用VGGNet和GoogLeNet。
  • 具體來說,對VGG-16網路刪除conv5-3(從pool5到prob),對GoogLeNet網路刪除最後一個inception。
  • 然後,新增兩個kernel size 3 × 3, stride 1, pad 1, 1024個單元的卷積層和一個size 1 × 1, stride 1, 1000個單元的卷積層(CUB-200-2011和Caltech-256資料集分別為200和256個單元)。
  • 最後,在卷積層的頂部新增一個GAP層和一個softmax層。

1.3. 測試

  • 在測試過程中,根據預測的類提取融合後的目標圖,通過線性插值的方法將融合後的目標圖大小調整到與原始影象相同的大小。
  • 為了公平比較,我們使用CAM中詳細介紹的相同策略,根據生成的目標定點陣圖來生成目標邊界框。
  • 具體來說,首先用一個固定的閾值分割前景和背景。然後,尋找在前景畫素中覆蓋最大連線區域的緊密邊界框。

2. 消融研究

圖片

不同閾值下的定位誤差

  • 觀察到兩個結果。
  • 提出的互補分支(分類器B)成功地與分類器A協同工作。
  • 需要一個設計良好的閾值。過大的閾值不能有效鼓勵分類器B發現更多的有用區域,太小的閾值可能會帶來背景噪聲。
  • 三個分類器的級聯網路也被測試。
  • 特別的是,新增第三個分類器,並通過融合分類器A和分類器b的目標定點陣圖來擦除/引導其輸入特徵圖,但沒有明顯的改善。

3. 實驗結果

3.1. 分類

圖片

在ILSVRC驗證集上的分類誤差

  • GoogLeNet-ACoL 和 VGGNet-ACoL 要比GoogLeNet-GAP 和 VGGNet-GAP的結果更好。

圖片

在細粒度CUB-200–2011測試集上的分類誤差

  • VGGNet-ACoL 達到了最低的 error 28.1%,沒有使用包圍框。

該方法可以使網路達到與原始網路等價的分類效能。這是由於擦除操作引導網路發現更多有區別的模式。

3.2. 定位

圖片

在ILSVRC驗證集上的定位誤差

  • ACoL 要比所有的baseline效果更好。
  • VGGNet-ACoL要遠好於VGGNet-GAP 和 GoogLeNet-ACoL,比GoogLeNet-HaS-32還要好。

圖片

在細粒度CUB-200–2011測試集上的定位誤差

  • 同樣,該方法的Top-1誤差比GoogLeNet-GAP小4.92%。

圖片

在ILSVRC驗證集上的定位/分類誤差

  • 使用了最先進的ResNet和DPN網路。
  • 使用整合DPN的分類結果,Top-1的誤差從45.14%減少到了38.45%。
  • 此外,僅從CAM之後的前三個預測類中選擇邊界框,可以提高 Top-5的定位效能(由*表示)。
  • VGGNet-ACoL-DPN-ensemble模型達到了30.03%的誤差在ILSVRC上。

圖片

在ILSVRC驗證集上使用ground-truth標籤的定位誤差

  • 消除分類結果對定位精度的影響,使用ground-truth標籤比較定位精度。
  • 所提出的ACoL方法的Top-1誤差達到37.04%,超過了其他方法。

3.3. 視覺化

圖片

和CAM方法的比較

  • 上圖顯示了本文的方法和CAM方法的定位包圍框。

CAM只能捕獲目標的一部分,而ACoL可以捕獲目標的大部分。

圖片

提出方法的物體定點陣圖

  • 對於上面的每一張影象,分別顯示了分類器A(左中)、分類器B(右中)和融合後的圖(右中)。
  • 提出的兩個分類器(A和B)可以發現目標物體的不同部位,從而在給定的影象中定位同一類別的整個區域。

英文原文:https://sh-tsang.medium.com/acol-adversarial-complementary-learning-weakly-supervised-object-localization-e112e5343f