用不需要手工標註分割的訓練資料來進行影象分割

語言: CN / TW / HK

導讀

只需要標註包圍框就可以進行影象分割的訓練。

圖片

手工分割(左)特徵的影象,新的弱監督系統產生的分割

語義分割是將數字影象中的每一個畫素自動標註為多個類別(人、貓、飛機、表等)中的一個,應用於基於內容的影象檢索、醫學影象和目標識別等。

圖片

對於標註者來說,在物件周圍畫一個邊界框要比完全分割同一幅影象容易得多。

基於機器學習的語義分割系統通常是在目標邊界已經精心手工標註過的影象上訓練,這是一個耗時的操作。另一方面,目標檢測系統可以對影象進行訓練,在這些影象中,目標被稱為邊界框的矩形框框起來。對於人類標註者來說,手動分割一幅影象平均花費的時間是標記邊界框的35倍。

在ECCV上發表的一篇論文中,我們描述了一個新的系統,我們稱之為Box2Seg,它只使用邊界框訓練資料來學習分割影象,這是弱監督學習的一個例子。

在實驗中,我們的系統在一個(mIoU)的度量上比以前的弱監督系統提高了2%,該度量度量了系統分割影象和手動分割影象之間的一致性。我們的系統的效能也可以與對一般影象資料進行預訓練,然後對完全分割的資料進行訓練相比。

此外,當我們使用弱監督方法訓練系統,然後對完全分割的資料進行微調時,它比對一般影象資料進行預訓練的系統性能提高了16%。這表明,即使分割訓練資料可用,使用我們的弱監督方法進行預處理訓練仍然有優勢。

有噪聲的標籤

我們的方法是將邊界框視為噪聲標籤。我們把框裡的每個畫素當作我們要尋找的邊界的物件的一部分,然而,其中一些畫素被錯誤地標記了。框外的所有畫素都被正確標記為背景畫素。

在訓練過程中,我們系統的輸入通過三個卷積神經網路:一個目標分割網路和兩個輔助網路。在執行過程中,我們丟棄了輔助網路,這樣它們就不會增加已部署系統的複雜性。

圖片

研究人員訓練模型的架構。由GrabCut分割演算法(M)提供的包圍框本身(B)和粗分割的位置有助於監督目標分割網路(θy)和兩個輔助網路(θa和θb)的訓練。

其中一個輔助網路對影象中的畫素進行兩兩比較,試圖學習區分背景和前景的一般方法。直觀地說,它是在邊界框內尋找與框外正確標記的背景畫素相似的畫素,並在框內尋找彼此不同的畫素簇。我們稱這個網路為“嵌入”網路,因為它可以學習畫素的向量表示,即嵌入,這些畫素只捕捉那些對區分背景和前景有用的屬性。

我們使用一種叫做GrabCut的標準分割演算法提供的相對粗糙的分割來預先訓練嵌入網路。在訓練過程中,嵌入網路的輸出為目標分割網路提供監督訊號,也就是說,我們用來評價嵌入網路效能的標準之一是其輸出與嵌入網路的輸出是否一致。

圖片

由研究者的嵌入網路確定的“親和性”的例子。較亮的區域表示畫素,表明網路得出的結論是有一些共同之處。\

另一個輔助網路是特定標籤注意力網路。它學會識別具有相同標籤的邊框內畫素之間頻繁出現的視覺屬性。可以將其視為一個目標檢測器,其輸出不是一個目標標籤,而是一個突出顯示特定物件類的畫素簇特徵的影象對映。

圖片

從左到右:手動分割影象,邊界框與GrabCut演算法提供的粗分割相結合,邊界框與研究人員的標籤特定注意網路輸出相結合。在第三對影象中,光譜的紅色端表示經常出現在帶有特定標籤的邊界框內的影象特徵。在訓練過程中,目標分割網路應特別注意這些特徵。

在使用標準基準資料集的實驗中,我們發現,僅使用邊界框訓練資料,Box2Seg比使用完全分割訓練資料訓練的其他12個系統表現得更好。當使用Box2Seg訓練的網路在完全分段的資料上進行微調時,效能改進甚至更顯著。這表明,當沒有完全分割的訓練資料時,甚至在完全分割的訓練資料可用時,物件分割的弱監督訓練可能是有用的。

英文原文:https://www.amazon.science/blog/learning-to-segment-images-without-manually-segmented-training-data