YoloV:視訊中目標實時檢測依然很棒(附原始碼下載)
點選 藍字 關注我們
關注並星標
從此不迷路
計算機視覺研究院
學習群 | 掃碼在主頁獲取加入方式
論文地址: http://arxiv.org/pdf/2208.09686.pdf
程式碼地址: http://github.com/YuHengsss/YOLOV
01
概述
視訊目標檢測(VID)具有挑戰性,因為目標外觀的高度變化以及某些幀中的各種劣化。積極的一面是,與靜止影象相比,在視訊的某一幀中進行檢測可以得到其他幀的支援。因此,如何跨不同幀聚合特徵是VID問題的關鍵。
大多數現有的聚合演算法都是為兩階段檢測器定製的。但是,由於兩階段的性質,此類檢測器通常在計算上很耗時。今天分享的研究者提出了一種簡單而有效的策略來解決上述問題,該策略花費了邊際開銷,並顯著提高了準確性。具體來說,與傳統的兩階段流水線不同,研究者主張將區域級候選放在一階段檢測之後,以避免處理大量低質量候選。此外,構建了一個新的模組來評估目標框架與其參考框架之間的關係,並指導聚合。
進行了廣泛的實驗和消融研究以驗證新提出設計的有效性,並揭示其在有效性和效率方面優於其他最先進的VID方法。基於YOLOX的模型可以實現可觀的效能(例如,在單個2080Ti GPU上的ImageNet VID資料集上以超過30 FPS的速度達到87.5% AP50),使其對大規模或實時應用程式具有吸引力。
02
背景
視訊目標檢測可以看作是靜止影象目標檢測的高階版本。直觀地說,可以通過將幀一一輸入靜止影象目標檢測器來處理視訊序列。但是,通過這種方式,跨幀的時間資訊將被浪費,這可能是消除/減少單個影象中發生的歧義的關鍵。
如上圖所示,視訊幀中經常出現運動模糊、相機散焦和遮擋等退化,顯著增加了檢測的難度。例如,僅通過檢視上圖中的最後一幀,人類很難甚至不可能分辨出物體在哪裡和是什麼。另一方面,視訊序列可以提供比單個靜止影象更豐富的資訊。換言之,同一序列中的其他幀可能支援對某一幀的預測。因此,如何有效地聚合來自不同幀的時間訊息對於準確性至關重要。從上圖可以看出,研究者提出的方法給出了正確的答案。
03
新框架
考慮到視訊的特性(各種退化與豐富的時間資訊),而不是單獨處理幀,如何從其他幀中為目標幀(關鍵幀)尋求支援資訊對於提高視訊檢測的準確性起著關鍵作用。最近的嘗試是在準確性上的顯著提高證實了時間聚合對問題的重要性。然而,大多數現有方法都是基於兩階段的技術。
如前所述,與一級基礎相比,它們的主要缺點是推理速度相對較慢。為了減輕這種限制,研究者將區域/特徵選擇放在單級檢測器的預測頭之後。
研究者選擇YOLOX作為基礎來展示研究者的主要主張。提出的框架如上圖所示。
讓我們回顧一下傳統的兩階段管道:
1)首先“選擇”大量候選區域作為提議;
2)確定每個提議是否是一個目標以及它屬於哪個類。計算瓶頸主要來自於處理大量的低置信區域候選。
從上圖可以看出,提出的框架也包含兩個階段。不同的是,它的第一階段是預測(丟棄大量低置信度的區域),而第二階段可以被視為區域級細化(通過聚合利用其他幀)。
通過這一原則,新的設計可以同時受益於一級檢測器的效率和從時間聚合中獲得的準確性。值得強調的是,如此微小的設計差異會導致效能上的巨大差異。所提出的策略可以推廣到許多基礎檢測器,例如YOLOX、FCOS和PPYOLOE。
此外,考慮到softmax的特性,可能一小部分參考特徵持有大部分權重。換句話說,它經常忽略低權重的特徵,這限制了可能後續使用的參考特徵的多樣性。
為了避免這種風險,研究者引入了平均池化參考特徵(A.P.)。具體來說,選擇相似度得分高於閾值τ的所有參考,並將平均池化應用於這些。請注意,這項工作中的相似性是通過N (Vc)N(Vc)T計算的。運算元N(·)表示層歸一化,保證值在一定範圍內,從而消除尺度差異的影響。通過這樣做,可以維護來自相關特徵的更多資訊。然後將平均池化特徵和關鍵特徵傳輸到一個線性投影層中進行最終分類。該過程如是上圖所示。
有人可能會問,N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作為相似度執行。事實上,這是另一種選擇。但是,在實踐中,由於Q和K之間的差異,它不像我們在訓練期間的選擇那樣穩定。
04
實驗及視覺化
對於給定的關鍵候選,通過三種不同方法選擇的參考候選之間的視覺比較。展示了4個在聚合中貢獻最大的參考候選。
具體來說,在下表的上半部分,研究者報告了所涉及的競爭模型的效能,而沒有采用任何後處理。由於一級檢測器的特性和研究者的策略的有效性,YOLOV可以顯著利用檢測精度和推理效率。為了公平比較,下表中列出的所有模型都在相同的硬體環境下進行了測試,除了MAMBA和查詢屬性。下表的下半部分報告了YOLOV和其他帶有後處理的SOTA模型的結果。在i7-8700K CPU上測試後處理的時間成本。
上排是基礎的檢測結果,下排是YoloV的結果
© THE END
轉載請聯絡本公眾號獲得授權
計算機視覺研究院學習群等你加入!
ABOUT
計算機視覺研究院
計算機視覺研究院主要涉及深度學習領域,主要致力於目標檢測、影象分割、模型量化、模型部署等研究方向。研究院接下來會不斷分享最新的論文演算法新框架,我們這次改革不同點就是,我們要著重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!
VX:2311123606
往期推薦
|
|||
|
|||
|
|||
|
- 探索計算機視覺前沿,螞蟻技術研究院4篇論文入選NeurIPS
- YoloV:視訊中目標實時檢測依然很棒(附原始碼下載)
- 最新版本PyTorch來了,功能強大,輔助你在AI領域更勝一籌!
- 像編輯文字一樣編輯語音,可能嗎?
- 輕量級模型架構火了,力壓蘋果MobileViT(附程式碼和論文下載)
- CVPR2022:使用完全交叉Transformer的小樣本目標檢測
- YOLOAir:整合多種YOLO改進模組,面向小白科研的YOLO檢測程式碼庫
- DTG-SSOD:最新半監督檢測框架,Dense Teacher(附論文下載)
- YoloX大升級:阿里巴巴提出新框架,超越Yolov6和PPYoloE(附原始碼)
- 預處理加速乾貨:大幅加速資料預處理、輕鬆定製高效能ML運算元
- 目標檢測綜述:基於至今先進深度學習的目標檢測模型綜述(附綜述論文及程式碼下載)
- Yolo系列的高效更精確的目標檢測框架(附原始碼)
- 解鎖CNN和Transformer正確結合方法,位元組跳動提出有效的下一代視覺Transformer
- CVPR2022:將X光圖片用於垃圾分割,探索大規模智慧垃圾分類
- 秋招之前,這8篇推薦系統的論文一定要讀!【附論文資料】
- 人臉技術:不清楚人照片修復成高質量高清晰影象框架(附原始碼下載)
- CVPR深度框架訓練 | 不是所有資料增強都可以提升最終精度
- 捲上天了!第一位來自中國高校的CV頂會一作
- FastestDet:比yolov5更快!更強!全新設計的超實時Anchor-free目標檢測演算法(附原始碼下載)
- CVPR 2022 | 華為諾亞&北大提出新框架,效能超越Swin Transfomer(原始碼下載)