AAAI2023|深度學習模型的魯棒性下降可能與盲目使用ImageNet預訓練模型有關
開啟掘金成長之旅!這是我參與「掘金日新計劃 · 2 月更文挑戰」的第 1 天,點選檢視活動詳情
論文標題:ImageNet Pre-training also Transfers Non-robustness
論文連結:https://arxiv.org/abs/2106.10989
程式碼連結:https://github.com/jiamingzhang94/ImageNet-Pretraining-transfers-non-robustness
作者單位:北京交通大學、鵬城實驗室、北京師範大學
會議介紹:AAAI(Association for the Advance of Artificial Intelligence)是由人工智慧促進協會主辦的年會,是人工智慧領域中歷史最悠久、涵蓋內容最廣泛的的國際頂級學術會議之一,也是中國計算機學會(CCF)推薦的A類國際學術會議。
深度學習方法中使用ImageNet預訓練模型目前已經是很多視覺任務上的基本手段,有很多研究表明,載入ImageNet預訓練模型可以幫助新模型在新任務上得到更好的泛化能力。但是這種方式有沒有缺陷呢,畢竟ImageNet資料庫的數量也是有限的,而且其也具有資料類別不平衡等問題。本文針對ImageNet預訓練展開了研究,作者發現ImageNet預訓練會在下游任務遷移知識的同時帶來一定的非魯棒性。作者首先對各種資料集和網路主幹進行了實驗,以揭示微調模型中的非魯棒性。並通過進一步的分析實驗,證明這種非魯棒性的來源就是ImageNet的預訓練模型中。為了減少這種遷移的負面影響,作者分析了預訓練模型對於特徵學習的偏好,探索了影響魯棒性的因素,並介紹了一種簡單的魯棒 ImageNet 預訓練解決方案。本文程式碼已開源。
1.引言
使用預訓練模型是目前人工智慧技術視覺和自然語言理解等領域的基石。很多模型和框架離不開大規模預訓練模型的支援。但是預訓練中存在哪些問題呢?隨著預訓練模型在解決現實世界任務中的逐漸普及,實驗資料的安全性是至關重要的,特別是對於具有高可靠性要求的任務。 如下圖所示,作者發現經過微調的模型在魯棒性方面的表現往往不盡如人意,這裡的魯棒性特指對抗魯棒性。經過預訓練微調後的模型會對資料的擾動非常敏感,並且錯誤地對對抗性輸入進行分類。但是近幾年來,由於預訓練模型在模型泛化性方面的優勢將這一缺陷掩蓋了。
那麼微調後模型魯棒性下降的原因是什麼呢?作者發現,儘管微調模型和標準模型的目標任務相同,但是它們在知識的學習方面有很大不同。此外,作者還分析了模型學習的哪些特徵導致了差異,以及這些特徵如何影響魯棒性。微調模型中的非穩健特徵被證明主要是從預訓練模型(即 ImageNet 模型)遷移而來。
2.ImageNet預訓練的非魯棒性實驗
2.1 預訓練任務設定
通常來說,預訓練會根據目標任務對新網路進行初始化。這裡將目標任務的網路分解為兩部分:帶有引數 $\theta_{f}$ 的特徵提取器 $f$ 和帶有引數 $\theta_{g}$ 的分類器 $g$。給定原始輸入 $x$,$f (x; \theta_{f})$ 表示從 $x$ 到其嵌入表示 $e_x$ 的對映,$g(e_x;\theta_{g})$ 表示從 $e_x$ 到其預測標籤的對映。典型的預訓練涉及兩種微調設定:(1)部分微調,其中僅更新對應於分類器 $g(e_x;\theta_{g})$ 的全連線層;(2)全微調,其中預訓練模型的$f (x; \theta_{f})$和$g(e_x;\theta_{g})$都在目標資料集上微調,$f (x; \theta_{f})$通常被分配一個較小的學習率。
2.2 對抗魯棒性設定
對抗魯棒性是為了衡量模型在對原始輸入新增小擾動時對對抗樣本的穩定能力。為了生成對抗樣本,這裡給定原始輸入 $x$ 和相應的真實標籤 $y$,目標是最大化輸入 $x$ 的損失 $L(x+\delta, y)$,生成的對抗樣本 $x^{\prime}=x+\delta$ 看起來應該與原始輸入 $x$ 在視覺上相似並且保證 $g\left(f\left(x^{\prime}\right)\right) \neq y$
2.3 實驗
作者選取了幾個被廣泛使用的影象分類資料集進行魯棒性實驗,包括Pets、NICO、Flowers 、Cars、Food和CIFAR10,此外還自行整理了一個Alphabet資料集作為比較示例,其具有低語義複雜性和相對充足的訓練資料。Alphabet資料集是通過擾動 26 個英文字母並新增隨機噪聲來構建的,每個字母類產生 1, 000 個訓練影象和 200 個測試影象,這些資料集中的影象示例如下。
為了測試與訓練模型的非魯棒性傳遞,作者在這裡比較了標準模型、部分微調模型和完全微調模型的效能。關於對抗性魯棒性,這裡使用下降率(decline ratio,DR)作為附加評估指標。給定原始輸入(accuracy of original inputs,AOI)和對抗性輸入(adversarial inputs,AAI)的識別精度,DR 定義為 DR = (AOI-AAI)/AOI。 與 AAI 相比,DR 可以作為模型穩健性的更平衡指標,尤其是當兩個模型在原始輸入(即 AOI)上的表現完全不同時。較大的 DR 表示在輸入擾動的情況下精度急劇下降,因而魯棒性較差。實驗結果如下表所示。
根據上表我們可以得到,對於大多數資料集,微調模型通常比標準模型實現更好的泛化(AOI),但魯棒性(AAI 和 DR)更差。這表明預訓練不僅提高了識別目標任務原始輸入的能力,而且傳遞了非魯棒性,使微調後的模型對對抗性擾動更加敏感。此外在兩個預訓練設定中,完全微調比部分微調設定獲得了更好的魯棒性和泛化能力。這表明在實際應用中採用預訓練以減輕魯棒性下降時,最好進行全面微調。
3. 微調模型與標準模型的區別
為了探索微調模型和標準模型之間的效能差異,作者從它們學習到的知識開始入手。首先作者對模型知識含量進行計算,採用了一個公認的指標,典型相關分析 (Canonical Correla- tion Analysis,CCA),以量化兩個網路之間的表示相似性。CCA是一種基於統計的手段,目的在於確定來自網路的兩個層$L_1、L_2$ 之間的表徵相似性。在具體操作時,令 $L_1 , L_2$ 為 $i×j$ (i 是影象數量,j 是神經元數量) 維矩陣。隨後在 $\mathbb{R}^{i}$ 中找到向量 $z、s$,使得相關係數 $\rho$ 最大化:
$$ \rho=\frac{\left\langle z^{T} L_{1}, s^{T} L_{2}\right\rangle}{\left\|z^{T} L_{1}\right\| \cdot\left\|s^{T} L_{2}\right\|} $$
隨後使用上述指標對微調模型和標準模型進行對比,實驗結果如下圖所示,微調模型與預訓練模型相比與標準模型更相似,對於大多數資料集的底層和全層特徵都是如此。由於預訓練模型和標準模型是分別在源資料集和目標資料集上訓練的,這個結果似乎表明在微調模型中學到的更多知識是從源任務資料轉移的,而不是從微調目標任務轉移的。 通過進一步比較圖 3(a) 和圖 3(b),可以發現微調模型和標準模型的底層特徵相對於全層特徵更相似,表明底層特徵 (例如,邊緣、簡單紋理)提取源任務和目標任務之間的一些共享語義。這證明了預訓練初始化的作用及其對泛化改進的貢獻。
4.魯棒的ImageNet預訓練方法
通過上述實驗和分析,作者認為特徵空間陡度(Steepness of Feature Space)是影響微調模型魯棒性的一個主要因素,因此作者首先引入了一個度量來量化目標任務和源任務之間的差異,然後提出一種稱為差異緩解(Discrepancy Mitigating) 的方法來規範兩個階段特徵空間的陡度,經過實驗,DM方法優於遷移學習中的大多數現有方法。特徵空間陡度的衡量指標為區域性Lipschitzness(LL):
$$ \mathrm{LL}(f(X))=\frac{1}{n} \sum_{i=1}^{n} \max {x{i}^{\prime} \in \mathbb{B}{\infty}\left(x{i}, \epsilon\right)} \frac{\left\|f\left(x_{i}\right)-f\left(x_{i}^{\prime}\right)\right\|{1}}{\left\|x{i}-x_{i}^{\prime}\right\|_{\infty}} $$
由於預訓練本質上是作為目標任務的特徵提取器,所以通過檢查從預訓練模型中提取的特徵如何適合目標任務的影象來衡量差異。隨後可以通過降低目標樣本上預訓練特徵空間的陡度來緩解微調模型中的非魯棒性,具體表現為減輕目標和源任務之間差異的影響,稱為差異緩解。操作時,在傳統的fine-tuning loss之外,加入LLF正則化項,推匯出如下目標函式:
$$ \min {\theta{f}, \theta_{g}} \frac{1}{m} \sum_{i=1}^{m} \mathcal{C}\left(y, g\left(f\left(x_{i}\right)\right)\right)+\lambda \cdot \operatorname{LL}(f(X)) $$
為了評估差異緩解方法對於微調模型穩定性保持的作用,作者選用了了幾個基線進行比較。基本上來說,提高微調模型的魯棒性涉及微調和預訓練兩個階段。本文提出的魯棒預訓練解決方案(表示為 [email protected]&2)結合了兩個階段:在預訓練階段,採用[1]中的對抗性訓練來獲得魯棒的預訓練模型,在微調階段,我們根據上式目標資料集進行微調,以減少由目標任務和源任務之間的差異引起的特徵空間陡度。
ResNet-18 backbone 的實驗結果如下表所示。可以觀察到:(1)關於魯棒性,[email protected]&2 在大多數資料集中實現了更高的 AAI 和 DR; (2) 關於泛化性,[email protected]&2 保證了與原始微調模型相比的效能,並且達到了與基線方法相當甚至更好的效能。
參考
[1] Salman, H.; Ilyas, A.; Engstrom, L.; Kapoor, A.; and Madry, A. 2020. Do Adversarially Robust ImageNet Models Transfer Better? In Proceedings of the International Conference on Neural Information Processing Systems.
往期回顧
頂刊TPAMI2022|高效解決跨域行人ReID中域內和域間的雙重差異,中科院自動化所出品
西交人機所提出影片全景分割新基線IMTNet,發表在影象領域頂級期刊TIP上
AAAI 2023|香港大學提出Glance-and-Focus網路,有效提升弱監督影片異常檢測效能
頂刊TIP 2022|雙管齊下,中科院自動化所提出用於行為識別的姿勢外觀聯合建模網路PARNet
頂刊TIP 2022|武漢大學遙感國重團隊提出二元變化引導的高光譜遙感多類變化檢測網路BCG-Net
頂刊TIP 2023|Rethinking無監督行人Re-ID,中科院研究團隊表明取樣策略是重中之重
頂刊TPAMI2022|復旦大學研究團隊提出基於貝葉斯理論的影象超解析度網路BayeSR