YoloV：視訊中目標實時檢測依然很棒（附原始碼下載）

語言: CN / TW / HK

時間 2022-09-23 01:06:06 計算機視覺研究院

主題: 目標檢測計算機視覺

點選藍字關注我們

關注並星標

從此不迷路

計算機視覺研究院

學習群｜ 掃碼在主頁獲取加入方式

論文地址： http://arxiv.org/pdf/2208.09686.pdf

程式碼地址： http://github.com/YuHengsss/YOLOV

概述

視訊目標檢測(VID)具有挑戰性，因為目標外觀的高度變化以及某些幀中的各種劣化。積極的一面是，與靜止影象相比，在視訊的某一幀中進行檢測可以得到其他幀的支援。因此，如何跨不同幀聚合特徵是VID問題的關鍵。

大多數現有的聚合演算法都是為兩階段檢測器定製的。但是，由於兩階段的性質，此類檢測器通常在計算上很耗時。今天分享的研究者提出了一種簡單而有效的策略來解決上述問題，該策略花費了邊際開銷，並顯著提高了準確性。具體來說，與傳統的兩階段流水線不同，研究者主張將區域級候選放在一階段檢測之後，以避免處理大量低質量候選。此外，構建了一個新的模組來評估目標框架與其參考框架之間的關係，並指導聚合。

進行了廣泛的實驗和消融研究以驗證新提出設計的有效性，並揭示其在有效性和效率方面優於其他最先進的VID方法。基於YOLOX的模型可以實現可觀的效能（例如，在單個2080Ti GPU上的ImageNet VID資料集上以超過30 FPS的速度達到87.5% AP50），使其對大規模或實時應用程式具有吸引力。

背景

視訊目標檢測可以看作是靜止影象目標檢測的高階版本。直觀地說，可以通過將幀一一輸入靜止影象目標檢測器來處理視訊序列。但是，通過這種方式，跨幀的時間資訊將被浪費，這可能是消除/減少單個影象中發生的歧義的關鍵。

如上圖所示，視訊幀中經常出現運動模糊、相機散焦和遮擋等退化，顯著增加了檢測的難度。例如，僅通過檢視上圖中的最後一幀，人類很難甚至不可能分辨出物體在哪裡和是什麼。另一方面，視訊序列可以提供比單個靜止影象更豐富的資訊。換言之，同一序列中的其他幀可能支援對某一幀的預測。因此，如何有效地聚合來自不同幀的時間訊息對於準確性至關重要。從上圖可以看出，研究者提出的方法給出了正確的答案。

新框架

考慮到視訊的特性（各種退化與豐富的時間資訊），而不是單獨處理幀，如何從其他幀中為目標幀（關鍵幀）尋求支援資訊對於提高視訊檢測的準確性起著關鍵作用。最近的嘗試是在準確性上的顯著提高證實了時間聚合對問題的重要性。然而，大多數現有方法都是基於兩階段的技術。

如前所述，與一級基礎相比，它們的主要缺點是推理速度相對較慢。為了減輕這種限制，研究者將區域/特徵選擇放在單級檢測器的預測頭之後。

研究者選擇YOLOX作為基礎來展示研究者的主要主張。提出的框架如上圖所示。

讓我們回顧一下傳統的兩階段管道：

1）首先“選擇”大量候選區域作為提議；

2）確定每個提議是否是一個目標以及它屬於哪個類。計算瓶頸主要來自於處理大量的低置信區域候選。

從上圖可以看出，提出的框架也包含兩個階段。不同的是，它的第一階段是預測（丟棄大量低置信度的區域），而第二階段可以被視為區域級細化（通過聚合利用其他幀）。

通過這一原則，新的設計可以同時受益於一級檢測器的效率和從時間聚合中獲得的準確性。值得強調的是，如此微小的設計差異會導致效能上的巨大差異。所提出的策略可以推廣到許多基礎檢測器，例如YOLOX、FCOS和PPYOLOE。

此外，考慮到softmax的特性，可能一小部分參考特徵持有大部分權重。換句話說，它經常忽略低權重的特徵，這限制了可能後續使用的參考特徵的多樣性。

為了避免這種風險，研究者引入了平均池化參考特徵（A.P.）。具體來說，選擇相似度得分高於閾值τ的所有參考，並將平均池化應用於這些。請注意，這項工作中的相似性是通過N (Vc)N(Vc)T計算的。運算元N(·)表示層歸一化，保證值在一定範圍內，從而消除尺度差異的影響。通過這樣做，可以維護來自相關特徵的更多資訊。然後將平均池化特徵和關鍵特徵傳輸到一個線性投影層中進行最終分類。該過程如是上圖所示。

有人可能會問，N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作為相似度執行。事實上，這是另一種選擇。但是，在實踐中，由於Q和K之間的差異，它不像我們在訓練期間的選擇那樣穩定。

實驗及視覺化

對於給定的關鍵候選，通過三種不同方法選擇的參考候選之間的視覺比較。展示了4個在聚合中貢獻最大的參考候選。

具體來說，在下表的上半部分，研究者報告了所涉及的競爭模型的效能，而沒有采用任何後處理。由於一級檢測器的特性和研究者的策略的有效性，YOLOV可以顯著利用檢測精度和推理效率。為了公平比較，下表中列出的所有模型都在相同的硬體環境下進行了測試，除了MAMBA和查詢屬性。下表的下半部分報告了YOLOV和其他帶有後處理的SOTA模型的結果。在i7-8700K CPU上測試後處理的時間成本。

上排是基礎的檢測結果，下排是YoloV的結果

轉載請聯絡本公眾號獲得授權

計算機視覺研究院學習群等你加入！

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域，主要致力於目標檢測、影象分割、模型量化、模型部署等研究方向。研究院接下來會不斷分享最新的論文演算法新框架，我們這次改革不同點就是，我們要著重”研究“。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

VX：2311123606

往期推薦

01	● Yolov7：最新最快的實時檢測框架，最詳細分析解釋（附原始碼）
	► 點選閱讀

02	● ECCV2022：在Transformer上進行遞迴，不增引數，計算量還少！
	► 點選閱讀

03	● 改進的YOLO： AF-FPN替換金字塔模組提升目標檢測精度
	► 點選閱讀

04	● QueryDet：級聯稀疏query加速高解析度下的小目標檢測（程式碼已開源）
	► 點選閱讀

「其他文章」