使用SINet進行偽裝目標檢測

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

導讀

使用深度學習檢測那些偽裝成背景的目標。

你能找到這些有偽裝的目標嗎?

匹配背景的偽裝。這就是生物學家所説的,當動物為了避免被認出而改變自己身體的顏色以適應周圍環境。它的工作原理是欺騙觀察者的視覺感知系統。使用傳統的顯着性目標檢測( SOD )來檢測這樣的目標是一個挑戰,因為它的工作原理是識別圖像中最引人注目的目標。然而,偽裝的物體與背景有很多相似之處,這使得它很難被發現。為了進行偽裝目標檢測( COD ),它需要大量關於視覺感知的知識。一個潛在的解決方案是一個簡單,但有效的框架,由一組國際研究人員創建,稱為搜索識別網絡( SINet )。

目前,由於缺乏大數據集,COD的研究還不是很深入。因此,研究人員創建了 COD10K 數據集。它包含了10,000張圖片,分為78個不同的類別。它是一個混合的圖像,包含偽裝和非偽裝目標,以及純背景。數據集是使用層次結構構建的。首先,每個圖像被分配一個超類別和一個子類別。然後,為每個圖像仔細地標註每個邊界框。然後,圖像也被分配了一組屬性,例如:遮擋或不可定義的邊界。最後,通過標註每個目標實例來擴展標註。

COD10K數據集的一個示例圖像

同樣的圖像實例級別的標註

現在已經討論了數據集,讓我們來看看框架本身。它由兩個主要模塊組成:搜索模塊( SM )和識別模塊( IM )。兩者都受到了狩獵的啟發。首先,捕食者會尋找潛在的獵物。如果獵物被發現,它將被識別並最終被捕獲。

搜索模塊

就像人類的視覺系統一樣,感受野( RF )被用來突出靠近視網膜中央凹的區域,這是眼睛對微小空間變化敏感的一部分。這激發了研究人員使用一個感受野組件來模仿人類視覺系統的感受野。RF組件包含五個分支。將前四個分支拼接起來,並加上第五個分支。之後,組件的全部輸出通過一個ReLU函數輸出。

RF組件的內部結構

RF組件在SM中多次使用,如下圖所示。來自Resnet-50的輸入,經過了多個卷積層,上下采樣層和連接層。

SM的可視化表示

SM中還使用了搜索注意力(search attention, SA )函數,實際上,這是一個高斯濾波器,會生成一個增強的偽裝圖。

識別模塊

接收到搜索模塊的輸出後,使用部分解碼器組件( PDC )精確檢測偽裝目標。如下圖所示,PDC使用SM的四個(一個可選)輸入,輸出是一個偽裝的目標圖。

查看PDC模塊

從SINet的完整概述中可以看到,PDC被使用了兩次。兩者之間的區別在於生成偽裝目標圖所需的輸入數量和輸入本身。這兩張圖通過相加合併,以創建最終的偽裝目標圖。

SINet的概要圖

Benchmark結果

研究人員使用三個不同的訓練數據集測試了SINet,第一個訓練集是CAMO數據集,第二個是他們自己的COD10K數據集,最後一個是這兩個和一些額外數據的組合。對於模型的評估使用CHAMELEON數據集,測試集是CAMO和COD10K。根據研究人員的説法,COD沒有其他的深度學習模式。因此,採用了12個其他非cod模型作為基準。

benchmark的結果

如上表所示,SINet優於其他所有模型。這並不奇怪,因為SINet是專門為COD設計的。值得注意的是,EGNet與SINet的結果相似,但是對比兩者的訓練時間,EGNet的訓練時間要比SINet長得多。分別是48小時和1小時。這表明SINet對COD的解決方案是很有可用性的。

非COD模型和SINet的top3的結果的可視化

總結

SINet是最早的COD解決方案之一。雖然研究人員承認還有更多的領域需要探索,但看起來SINet將目標檢測提升到了一個新的水平。它可以使發現和保護自然界的珍稀物種,發現果園中的蘋果,幫助搜索和救援任務,或提高搜索引擎的搜索結果。我很好奇幾年後COD領域會發生什幺。隨着對人類視覺系統瞭解的加深,我相信COD在未來會變得更好。

英文原文: medium.com/swlh/camouf…