輕量級模型架構火了,力壓蘋果MobileViT(附程式碼和論文下載)

語言: CN / TW / HK

關注並星標

從此不迷路

計算機視覺研究院

公眾號IDComputerVisionGzq

學習群掃碼在主頁獲取加入方式

論文地址: https://arxiv.org/abs/2203.03952

程式碼地址: https://github.com/hkzhang91/ParC-Net

計算機視覺研究院專欄

作者:Edison_G

繼承ConvNet和Transformer優點的位置敏感的迴圈卷積。

01

概述

最近,vision transformers開始顯示出令人印象深刻的結果,顯著優於基於大型卷積的模型。然而, 在移動或資源受限裝置的小型模型領域 ,ConvNet在效能和模型複雜度方面仍然具有自己的優勢。研究者提出了ParC-Net,這是一種純基於ConvNet的骨幹模型,通過將vision transformers的優點融合到ConvNet 中,進一步增強了這些優勢。

ConvNet與ViT模型影象分類實驗結果對比

具體來說,研究者提出了位置感知迴圈卷積(ParC),這是一種輕量級的卷積運算,它擁有全域性感受野,同時產生與區域性卷積一樣的位置敏感特徵。將 ParCs squeeze-exictation ops 結合起來形成一個類似於元模型的模型塊,它還具有類似於transformers的注意力機制。上述塊可以 即插即用 的方式使用,以替換ConvNets或transformers中的相關塊。

實驗結果表明,在常見的視覺任務和資料集中,所提出的ParC-Net比流行的輕量級ConvNets和基於vision transformers的模型具有更好的效能,同時具有更少的引數和更快的推理速度。對於ImageNet-1k上的分類,ParC-Net在大約500萬個引數的情況下實現了 78.6%的top-1準確率 節省了11%的引數和13%的計算成本,但準確率提高了0.2 %,推理速度提高了23% (基於ARM的Rockchip RK3288)與MobileViT相比,僅使用0.5倍的引數,但與DeIT相比獲得了2.7%的準確度。在MS-COCO目標檢測和PASCAL VOC分割任務上,ParC-Net也表現出更好的效能。

02

背景

然而,我們認為ViTs和ConvNets都是不可或缺的,原因如下:

1)從應用的角度來看,ViTs和ConvNets都有其優點和缺點。ViT模型通常具有更好的效能,但通常計算成本高且難以訓練。與ViTs相比,ConvNets可能表現出較差的效能,但它們仍然具有一些獨特的優勢。例如, ConvNets具有更好的硬體支援並且易於訓練 。此外,正如[ Jianyuan Guo, Kai Han, Han Wu, Chang Xu, Yehui Tang, Chunjing Xu, and Yunhe Wang. Cmt: Convolutional neural networks meet vision transformers. ]和研究者的實驗中總結的那樣, ConvNets在移動或邊緣裝置的小型模型領域仍然占主導地位

2)從資訊處理的角度來看,ViTs和ConvNets都具有獨特的特徵。ViT擅長提取全域性資訊,並使用注意力機制從輸入資料驅動的不同位置提取資訊。ConvNets專注於對區域性關係進行建模,並且通過歸納偏置具有很強的先驗性。上述分析自然提出了一個問題: 我們能否向ViT學習以改進用於移動或邊緣計算應用的ConvNet?

ViT論文: https://arxiv.org/abs/2010.11929

ConvNeXt論文: https://arxiv.org/abs/2201.03545

03

新框架

研究者們取ViT的三個亮點,將純卷積 結構變強。研究者認為,ViT和ConvNet有三個主要區別:ViT更擅長提取全域性特徵,採用meta-former結構,而且資訊整合由資料驅動。ParC的設計思路便是從這三點著手來優化ConvNet。

普通ConvNet和ViT之間的三個主要區別 。a)ConvNet常用的Residual block;b)ViT中常用的Meta-Former 結構;c)研究者提出的ParC block。

具體而言,研究人員設計了一種位置資訊敏感的迴圈卷積(Position aware circular convolution, ParC)。這是一種簡單有效的輕量卷積運算運算元,既擁有像ViT類結構的全域性感受野,同時產生了像區域性卷積那樣的位置敏感特徵,能克服依賴自注意力結構提取全域性特徵的問題。

Position aware circular convolution

水平方向的全域性迴圈卷積

可以看到ParC-H沿著通過連線輸入的開始和結束生成的圓執行卷積。因此,研究者將提出的卷積命名為迴圈卷積。提議的ParC引入了三個修改:

  • 結合circular padding和大感受野低秩分解卷積核提取全域性特徵;

  • 引入位置嵌入,保證輸出特徵對於空間位置資訊的敏感性;

  • 動態插值實時生成尺寸適配的卷積核和位置編碼,應對輸入解析度變化情況,這增強了對不同尺寸輸入的適應能力。

研究者還將ParC和squeeze exictation結合起來,構建了一個純卷積結構的meta former結構。該結構捨棄了自注意力硬體支援不友好的操作,但保留了傳統Transformer塊提取全域性特徵的特點。 究者還 在channe l mixer部分引入硬體支援較友好的通道注意力機制,使其純卷積meta former結構也具備自注意力的特點。

基於ParC結構最終得到的ParC塊,可作為一個即插即用的基礎單元,替換現有ViT或ConvNet模型中的相關塊,從而提升精度,並降低計算成本,有效克服硬體支援的問題。

三種主要的混合結構。(a) serial structure; (b) parallel structure; (c) bifurcate structure。

04

實驗分析

在影象分類實驗中,對於ImageNet-1k的分類,ParC-Net使用的引數規模最小(約500萬個引數),卻實現了 最高準確率78.6%

MobileViT是Apple2022年在國際深度學習頂會ICLR22上提出的輕量級通用ViT模型。同樣部署在基於Arm的瑞芯微RK3288晶片上,相較基線模型MobileViT, ParC-Net節省了11%的引數和13%的計算成本,同時準確率提高了0.2%,推理速度提高了23%

MS-COCO物體檢測實驗結果

PASCAL VOC分割任務實驗結果

研究者將ParC-Net和基線模型MobileVit均部署到自研低功耗晶片DP上進行推理速度測試。從實驗結果可以看到,ParC-Net的推理速度能夠達到MobileViT速度的3~4倍。

© THE END 

轉載請聯絡本公眾號獲得授權

計算機視覺研究院學習群等你加入!

我們開創“ 計算機視覺協會 ”知識星球兩年有餘,也得到很多同學的認可,最近我們又開啟了知識星球的運營。 我們 定時會 推送實踐型內容與大家分享 ,在星球裡的同學可以 隨時提問 ,隨時提需求,我們都會及時給予回覆及給出對應的答覆。

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、影象分割等研究方向。研究院接下來會不斷分享最新的論文演算法新框架,我們這次改革不同點就是,我們要著重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!

VX:2311123606

往期推薦 

:link:

「其他文章」