Fast YOLO:用於實時嵌入式目標檢測(附論文下載)
關注並星標
從此不迷路
計算機視覺研究院
公眾號ID | ComputerVisionGzq
學習群 | 掃碼在主頁獲取加入方式
計算機視覺研究院專欄
作者:Edison_G
目標檢測被認為是計算機視覺領域中最具挑戰性的問題之一,因為它涉及場景中物件 分類和物件定位的組合。今天分享這個框架有點陳舊,但精髓!
一、前言
目標檢測被認為是計算機視覺領域中最具挑戰性的問題之一 ,因為它涉及場景中物件分類和物件定位的組合。最近,與其他方法相比,深度神經網路 (DNN) 已被證明可以實現卓越的目標檢測效能,其中YOLOv2是基於DNN的最先進技術之一。
目標檢測方法在速度和準確性方面。儘管YOLOv2可以在強大的GPU上實現實時效能,但在計算能力和記憶體有限的嵌入式計算裝置上利用這種方法進行視訊中的實時目標檢測仍然非常具有挑戰性。
二、概要
在今天分享中,有研究者提出了一個名為 Fast YOLO 的新框架,這是一個快速的You Only Look Once框架,它可以加速YOLOv2以便能夠以實時方式在嵌入式裝置上執行視訊中的目標檢測。
首先,利用進化深度智慧框架來進化YOLOv2網路架構,併產生一個優化的架構(這裡稱為O-YOLOv2),其 引數減少了2.8倍 , IOU下降了約2% 。為了在保持效能的同時進一步降低嵌入式裝置的功耗,在提出的Fast YOLO框架中引入了一種 運動自適應推理方法 ,以降低基於時間運動特性的O-YOLOv2深度推理的頻率。實驗結果表明,與原始YOLOv2相比,所提出的Fast YOLO框架可以將 深度推理的數量平均減少38.13% , 視訊中目標檢測的平均加速約為3.3倍 ,導致Fast YOLO執行在Nvidia Jetson TX1嵌入式系統上平均約為18FPS。
三、新框架
提出的Fast YOLO框架分為兩個主要部分:i)優化的YOLOv2架構,以及ii運動自適應推理(見上圖)。對於每個視訊幀,由帶有參考幀的視訊幀組成的影象堆疊被傳遞到1×1卷積層。卷積層的結果是一個運動概率圖,然後將其送入運動自適應推理模組以確定是否需要深度推理來計算更新的類概率圖。正如介紹中提到的,主要目標是引入一個視訊中的目標檢測框架,該框架可以在嵌入式裝置上更快地執行,同時減少資源使用,從而顯著降低功耗。通過利用這種運動自適應推理方法,深度推理的頻率大大降低,並且僅在必要時執行。
深度神經網路的主要挑戰之一,尤其是在將它們用於嵌入式場景時,是網路架構設計。設計過程通常由人類專家執行,他探索大量網路配置,以在建模精度和引數數量方面為特定任務找到最佳架構。尋找優化的網路架構目前通常作為超引數優化問題來解決,但這種解決問題的方法非常耗時,而且大多數方法對於大型網路架構來說要麼在計算上難以處理,要麼導致次優解決方案不夠嵌入式使用。
例如,超引數優化的一種常用方法是網格搜尋,其中檢查大量不同的網路配置,然後選擇最佳配置作為最終的網路架構。然而,為視訊中的目標檢測而設計的深度神經網路(如YOLOv2)具有大量引數,因此在計算上難以搜尋整個引數空間以找到最佳解決方案。
因此,研究者沒有利用超引數優化方法來獲得基於YOLOv2的最佳網路架構,而是利用專為提高網路效率而設計的網路優化策略。特別是,研究者利用進化深度智慧框架來優化網路架構,以合成滿足嵌入式裝置記憶體和計算能力限制的深度神經網路。
為了進一步降低處理器單元的功耗,用於視訊中的嵌入式目標檢測,研究者利用了這樣一個事實,即並非所有捕獲的視訊幀都包含唯一資訊,因此不需要對所有幀進行深度推理。因此,研究者引入了一種運動自適應推理方法來確定特定視訊幀是否需要深度推理。通過在必要時使用前面介紹的O-YOLOv2網路進行深度推理,這種運動自適應推理技術可以幫助框架減少對計算資源的需求,從而顯著降低功耗系統以及處理速度的提高。
四、實驗
原始YOLOv2網路架構與優化後的YOLOv2之間的架構和效能比較
提出的Fast YOLO、O-YOLOv2和原始YOLOv2在Nvidia Jetson TX1嵌入式系統上執行的平均執行時效能和深度推理頻率。
© THE END
轉載請聯絡本公眾號獲得授權
計算機視覺研究院學習群等你加入!
計算機視覺研究院 主要涉及 深度學習 領域,主要致力於 人臉檢測、人臉識別,多目標檢測、目標跟蹤、影象分割等 研究方向。 研究院 接下來會不斷分享最新的論文演算法新框架,我們這次改革不同點就是,我們要著重” 研究 “。之後我們會針對相應領域分享實踐過程,讓大家真正體會 擺脫理論 的真實場景,培養愛動手程式設計愛動腦思考的習慣!

掃碼 關注
計算機視覺研究院
公眾號ID | ComputerVisionGzq
學習群 | 掃碼在主頁獲取加入方式
往期推薦
:link:
- 探索計算機視覺前沿,螞蟻技術研究院4篇論文入選NeurIPS
- YoloV:視訊中目標實時檢測依然很棒(附原始碼下載)
- 最新版本PyTorch來了,功能強大,輔助你在AI領域更勝一籌!
- 像編輯文字一樣編輯語音,可能嗎?
- 輕量級模型架構火了,力壓蘋果MobileViT(附程式碼和論文下載)
- CVPR2022:使用完全交叉Transformer的小樣本目標檢測
- YOLOAir:整合多種YOLO改進模組,面向小白科研的YOLO檢測程式碼庫
- DTG-SSOD:最新半監督檢測框架,Dense Teacher(附論文下載)
- YoloX大升級:阿里巴巴提出新框架,超越Yolov6和PPYoloE(附原始碼)
- 預處理加速乾貨:大幅加速資料預處理、輕鬆定製高效能ML運算元
- 目標檢測綜述:基於至今先進深度學習的目標檢測模型綜述(附綜述論文及程式碼下載)
- Yolo系列的高效更精確的目標檢測框架(附原始碼)
- 解鎖CNN和Transformer正確結合方法,位元組跳動提出有效的下一代視覺Transformer
- CVPR2022:將X光圖片用於垃圾分割,探索大規模智慧垃圾分類
- 秋招之前,這8篇推薦系統的論文一定要讀!【附論文資料】
- 人臉技術:不清楚人照片修復成高質量高清晰影象框架(附原始碼下載)
- CVPR深度框架訓練 | 不是所有資料增強都可以提升最終精度
- 捲上天了!第一位來自中國高校的CV頂會一作
- FastestDet:比yolov5更快!更強!全新設計的超實時Anchor-free目標檢測演算法(附原始碼下載)
- CVPR 2022 | 華為諾亞&北大提出新框架,效能超越Swin Transfomer(原始碼下載)