使用SINet進行偽裝目標檢測
本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.
導讀
使用深度學習檢測那些偽裝成背景的目標。
你能找到這些有偽裝的目標嗎?
匹配背景的偽裝。這就是生物學家所說的,當動物為了避免被認出而改變自己身體的顏色以適應周圍環境。它的工作原理是欺騙觀察者的視覺感知系統。使用傳統的顯著性目標檢測( SOD )來檢測這樣的目標是一個挑戰,因為它的工作原理是識別影象中最引人注目的目標。然而,偽裝的物體與背景有很多相似之處,這使得它很難被發現。為了進行偽裝目標檢測( COD ),它需要大量關於視覺感知的知識。一個潛在的解決方案是一個簡單,但有效的框架,由一組國際研究人員建立,稱為搜尋識別網路( SINet )。
目前,由於缺乏大資料集,COD的研究還不是很深入。因此,研究人員建立了 COD10K 資料集。它包含了10,000張圖片,分為78個不同的類別。它是一個混合的影象,包含偽裝和非偽裝目標,以及純背景。資料集是使用層次結構構建的。首先,每個影象被分配一個超類別和一個子類別。然後,為每個影象仔細地標註每個邊界框。然後,影象也被分配了一組屬性,例如:遮擋或不可定義的邊界。最後,通過標註每個目標例項來擴充套件標註。
COD10K資料集的一個示例影象
同樣的影象例項級別的標註
現在已經討論了資料集,讓我們來看看框架本身。它由兩個主要模組組成:搜尋模組( SM )和識別模組( IM )。兩者都受到了狩獵的啟發。首先,捕食者會尋找潛在的獵物。如果獵物被發現,它將被識別並最終被捕獲。
搜尋模組
就像人類的視覺系統一樣,感受野( RF )被用來突出靠近視網膜中央凹的區域,這是眼睛對微小空間變化敏感的一部分。這激發了研究人員使用一個感受野元件來模仿人類視覺系統的感受野。RF元件包含五個分支。將前四個分支拼接起來,並加上第五個分支。之後,元件的全部輸出通過一個ReLU函式輸出。
RF元件的內部結構
RF元件在SM中多次使用,如下圖所示。來自Resnet-50的輸入,經過了多個卷積層,上下采樣層和連線層。
SM的視覺化表示
SM中還使用了搜尋注意力(search attention, SA )函式,實際上,這是一個高斯濾波器,會生成一個增強的偽裝圖。
識別模組
接收到搜尋模組的輸出後,使用部分解碼器元件( PDC )精確檢測偽裝目標。如下圖所示,PDC使用SM的四個(一個可選)輸入,輸出是一個偽裝的目標圖。
檢視PDC模組
從SINet的完整概述中可以看到,PDC被使用了兩次。兩者之間的區別在於生成偽裝目標圖所需的輸入數量和輸入本身。這兩張圖通過相加合併,以建立最終的偽裝目標圖。
SINet的概要圖
Benchmark結果
研究人員使用三個不同的訓練資料集測試了SINet,第一個訓練集是CAMO資料集,第二個是他們自己的COD10K資料集,最後一個是這兩個和一些額外資料的組合。對於模型的評估使用CHAMELEON資料集,測試集是CAMO和COD10K。根據研究人員的說法,COD沒有其他的深度學習模式。因此,採用了12個其他非cod模型作為基準。
benchmark的結果
如上表所示,SINet優於其他所有模型。這並不奇怪,因為SINet是專門為COD設計的。值得注意的是,EGNet與SINet的結果相似,但是對比兩者的訓練時間,EGNet的訓練時間要比SINet長得多。分別是48小時和1小時。這表明SINet對COD的解決方案是很有可用性的。
非COD模型和SINet的top3的結果的視覺化
總結
SINet是最早的COD解決方案之一。雖然研究人員承認還有更多的領域需要探索,但看起來SINet將目標檢測提升到了一個新的水平。它可以使發現和保護自然界的珍稀物種,發現果園中的蘋果,幫助搜尋和救援任務,或提高搜尋引擎的搜尋結果。我很好奇幾年後COD領域會發生什么。隨著對人類視覺系統瞭解的加深,我相信COD在未來會變得更好。
英文原文: medium.com/swlh/camouf…
- 全自動資料建模平臺打造建模新正規化,人人都能成為資料科學家 | 愛分析調研
- 如何用DBSCAN聚類模型做資料分析?
- 精準使用者畫像!商城使用者分群2.0!
- Test time adaptation方法總結
- 超精準!AI 結合郵件內容與附件的意圖理解與分類!
- AI加速器與機器學習演算法:協同設計與進化
- 使用SINet進行偽裝目標檢測
- ECCV 2022 Oral | 理解藝術字:用於場景文字識別的角點引導Transformer
- AI醫療高精尖!基於AI的新葯研發!
- 谷歌&北大擴散模型(Diffusion Model)首篇綜述-Diffusion Models: A Comprehensive Survey of Meth…
- 協同過濾演算法——基於物品(Item)
- MLOps對比DevOps:有什么區別?
- CVPR 2022 | UniDet:通用的多資料集目標檢測
- ECCV 2022 | k-means Mask Transformer
- IS 2022 | 位元組AI Lab聯合南科大提出:利用偽標註資料提升端到端S2ST
- 自定義分詞起始規則實現關鍵詞全詞高亮專案實戰(全語種通吃)
- 電商搜尋全鏈路(PART II)Query理解
- 機器學習分類問題:九個常用的評估指標總結
- 簡單的文字分類任務:不借助Trainer實現
- Macbook Pro M1晶片使用Pytorch進行深度學習小試