使用SINet進行偽裝目標檢測

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

導讀

使用深度學習檢測那些偽裝成背景的目標。

你能找到這些有偽裝的目標嗎?

匹配背景的偽裝。這就是生物學家所說的,當動物為了避免被認出而改變自己身體的顏色以適應周圍環境。它的工作原理是欺騙觀察者的視覺感知系統。使用傳統的顯著性目標檢測( SOD )來檢測這樣的目標是一個挑戰,因為它的工作原理是識別影象中最引人注目的目標。然而,偽裝的物體與背景有很多相似之處,這使得它很難被發現。為了進行偽裝目標檢測( COD ),它需要大量關於視覺感知的知識。一個潛在的解決方案是一個簡單,但有效的框架,由一組國際研究人員建立,稱為搜尋識別網路( SINet )。

目前,由於缺乏大資料集,COD的研究還不是很深入。因此,研究人員建立了 COD10K 資料集。它包含了10,000張圖片,分為78個不同的類別。它是一個混合的影象,包含偽裝和非偽裝目標,以及純背景。資料集是使用層次結構構建的。首先,每個影象被分配一個超類別和一個子類別。然後,為每個影象仔細地標註每個邊界框。然後,影象也被分配了一組屬性,例如:遮擋或不可定義的邊界。最後,通過標註每個目標例項來擴充套件標註。

COD10K資料集的一個示例影象

同樣的影象例項級別的標註

現在已經討論了資料集,讓我們來看看框架本身。它由兩個主要模組組成:搜尋模組( SM )和識別模組( IM )。兩者都受到了狩獵的啟發。首先,捕食者會尋找潛在的獵物。如果獵物被發現,它將被識別並最終被捕獲。

搜尋模組

就像人類的視覺系統一樣,感受野( RF )被用來突出靠近視網膜中央凹的區域,這是眼睛對微小空間變化敏感的一部分。這激發了研究人員使用一個感受野元件來模仿人類視覺系統的感受野。RF元件包含五個分支。將前四個分支拼接起來,並加上第五個分支。之後,元件的全部輸出通過一個ReLU函式輸出。

RF元件的內部結構

RF元件在SM中多次使用,如下圖所示。來自Resnet-50的輸入,經過了多個卷積層,上下采樣層和連線層。

SM的視覺化表示

SM中還使用了搜尋注意力(search attention, SA )函式,實際上,這是一個高斯濾波器,會生成一個增強的偽裝圖。

識別模組

接收到搜尋模組的輸出後,使用部分解碼器元件( PDC )精確檢測偽裝目標。如下圖所示,PDC使用SM的四個(一個可選)輸入,輸出是一個偽裝的目標圖。

檢視PDC模組

從SINet的完整概述中可以看到,PDC被使用了兩次。兩者之間的區別在於生成偽裝目標圖所需的輸入數量和輸入本身。這兩張圖通過相加合併,以建立最終的偽裝目標圖。

SINet的概要圖

Benchmark結果

研究人員使用三個不同的訓練資料集測試了SINet,第一個訓練集是CAMO資料集,第二個是他們自己的COD10K資料集,最後一個是這兩個和一些額外資料的組合。對於模型的評估使用CHAMELEON資料集,測試集是CAMO和COD10K。根據研究人員的說法,COD沒有其他的深度學習模式。因此,採用了12個其他非cod模型作為基準。

benchmark的結果

如上表所示,SINet優於其他所有模型。這並不奇怪,因為SINet是專門為COD設計的。值得注意的是,EGNet與SINet的結果相似,但是對比兩者的訓練時間,EGNet的訓練時間要比SINet長得多。分別是48小時和1小時。這表明SINet對COD的解決方案是很有可用性的。

非COD模型和SINet的top3的結果的視覺化

總結

SINet是最早的COD解決方案之一。雖然研究人員承認還有更多的領域需要探索,但看起來SINet將目標檢測提升到了一個新的水平。它可以使發現和保護自然界的珍稀物種,發現果園中的蘋果,幫助搜尋和救援任務,或提高搜尋引擎的搜尋結果。我很好奇幾年後COD領域會發生什么。隨著對人類視覺系統瞭解的加深,我相信COD在未來會變得更好。

英文原文: medium.com/swlh/camouf…