CVPR 2022 | UniDet：通用的多資料集目標檢測

語言: CN / TW / HK

時間 2022-09-04 19:07:59 閃念基因

主題: 目標檢測 CVPR

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

前言論文提出了一種在多個大規模資料集上訓練統一檢測器的通用方法。使用特定於資料集的訓練協議和損失，但與特定於資料集中的輸出共享公共檢測架構。與之前的工作相比，該方法不需要手動分類協調。

實驗表明，本文學習的分類法在所有資料集中都優於專家設計的分類法。並且多資料集檢測器在每個訓練域上的效能與特定於資料集的模型一樣好，並且可以推廣到新的不可見資料集，而無需對它們進行微調。

歡迎關注公眾號 CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。目前公眾號正在徵稿中，可以獲取對應的稿費哦。

QQ交流群: 444129970。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

論文： arxiv.org/abs/2102.13…

程式碼： github.com/xingyizhou/…

創新思路

單個數據集在影象域和標籤表中都受到限制，不能產生通用識別系統。那么是否可以通過統一不同的檢測資料集來緩解這種限制嗎？

一般來說，不同的資料集通常在不同的訓練損失、資料取樣策略和排程下進行訓練，每個資料集訓練具有單獨輸出的單個檢測器，並對每個資料集應用特定於資料集的監督，訓練模擬使用公共網路訓練並行資料集特定模型。

本文的一個核心挑戰是將不同的資料集整合到一個通用的分類法中，並訓練一個檢測器，該檢測器可以對一般目標而不是特定於資料集的類進行推理。

為此，作者提出了一種僅使用視覺資料的全自動方法來統一多資料集檢測系統的輸出空間。利用來自不同資料集的類似概念的目標檢測器對類似的新目標進行檢測。這使得可以定義跨資料集合並概念的成本，並完全自動地優化通用分類法。本文的優化使用新的0-1整數規劃公式，聯合發現了統一分類法、從該分類法到每個資料集的對映以及統一分類法上的檢測器。基於該統一分類法訓練的目標檢測器具有來自所有訓練資料集的大量自動構建的概念標籤表。

本文的主要貢獻

1、提出了一種僅使用視覺資料的全自動方法來統一多資料集檢測系統的輸出空間。

2、證明了在不同的訓練集上訓練的模型在無需再訓練的情況下推廣到新的領域，並優於單資料集模型。

方法

訓練多資料集檢測器

本文旨在具有標籤空間的K個數據集上訓練單個檢測器M，以及資料集特定的訓練目標。只要不嘗試合併不同資料集之間的標籤空間，就可以像單獨訓練多個數據集特定檢測器一樣訓練統一檢測器。

這可以被認為是並行訓練K個數據集特定檢測器，同時共享它們的主幹架構。每個資料集特定架構與公共主幹共享除最後一層之外的所有層。每個資料集最後都使用自己的分類層。稱之為分割槽檢測器。通過最小化K個數據集的特定損失，在所有資料集上訓練分割槽檢測器：

雖然分割槽檢測器學習檢測所有類，但它仍產生不同的資料集特定輸出。

學習統一標籤空間

考慮多個數據集，每個資料集都有自己的標籤空間，目標是共同學習一個用於所有資料集的公共標籤空間L，並定義這個公共標籤空間與資料集特定標籤Tk之間的對映。每個關節標籤c最多對映到一個數據集特定標籤ˆc。此外，每個資料集特定的標籤精確匹配一個關節標籤:Tk1。

然後，給定一組分塊檢測器輸出，對於邊界框，通過簡單平均常見類的輸出來構建聯合檢測得分di:

從這個聯合檢測器，恢復特定於資料集的輸出。目的是找到一組對映T ，並隱式定義一個聯合標籤空間L，使聯合分類器的效能不下降。

對於特定的輸出類c，讓Lc是一個損失函式，衡量合併標籤空間di及其重投影ˆdki與單個盒子i上原始不相交的標籤空間dki的質量。目的是在給定對映上的布林約束條件下，在所有檢測器輸出上優化這種損失：

公式6混合了L上的組合優化和T上的0-1整數程式。但是，有一種簡單的重新引數化方法可以實現高效的優化。不直接對標籤集L和變換T進行優化，而是對T的潛在列值進行組合優化。優化的目標簡化為

損失函式

失真度衡量的是分割槽檢測器和統一檢測器之間檢測得分的差異:

給定一個重投影的特定於資料集的輸出，可以測量每個輸出類c在Dk的驗證集上的平均精度:

這兩個損失函式允許訓練一個分割槽檢測器，並在訓練後合併其輸出空間。

實驗

表1。多資料集訓練策略的有效性。

圖3。對學習到的統一標籤空間進行取樣。

表2.特定於資料集的檢測器vs分割槽檢測器。

表3.統一標籤空間的評估。

表5所示。統一檢測器與分割槽檢測器。

表6所示。Cross-dataset評估。

結論

論文提出了一個簡單的方法來訓練跨多個數據集的單一目標檢測器，以及一個公式來自動構建一個統一的分類法。得到的檢測器可以部署在新的領域，而無需額外的知識。

本文的標籤空間學習演算法目前只使用視覺線索，結合語言線索作為輔助資訊可以進一步提高效能。

「其他文章」