從CVPR 2022看域泛化(Domain Generalization)最新研究進展

語言: CN / TW / HK

©PaperWeekly 原創 · 作者 |

張一帆

單位 |中科院自動化所博士生

研究方向 |計算機視覺

Domain Adaptation(DA:域自適應),Domain Generalization(DG:域泛化)一直以來都是各大頂會的熱門研究方向。DA 假設我們有有一個帶標籤的訓練集(源域),這時候我們想讓模型在另一個數據集上同樣表現很好(目標域),利用目標域的無標籤資料,提升模型在域間的適應能力是 DA 所強調的。以此為基礎,DG 進一步弱化了假設,我們只有多個源域的資料,根本不知道目標域是什麼,這個時候如何提升模型泛化性呢?核心在於如何利用多個源域帶來的豐富資訊。本文挑選了四篇 CVPR 2022 域泛化相關的文章來研究最新的進展。

BIRM

論文標題:

Bayesian Invariant Risk Minimization

論文連結:

https://openaccess.thecvf.com/content/CVPR2022/papers/Lin_Bayesian_Invariant_Risk_Minimization_CVPR_2022_paper.pdf

1.1 Motivation

分佈偏移下的泛化是機器學習的一個開放挑戰。不變風險最小化(IRM)通過提取不變特徵來解決這個問題。雖然 IRM 有著完備的理論體系,但是在深度模型上表現往往不是很好,本文認為這種失敗主要是 深度模型容易過擬合 引起的,並理論驗證了當模型過擬合時,IRM 退化為傳統的 ERM。本文將 Bayesian  inference 引入 IRM 提出了 Bayesian Invariant Risk Min-imization(BIRM)來一定程度上緩解這個問題並取得了不錯的效果。

1.2 Background

這裡簡單介紹一下 OOD 問題與 IRM,所謂的 OOD 問題可以寫為如下形式

即尋找最優的分類器,encoder 引數使得模型在表現最差的域都有比較好的效能,i.e.,。這裡的是域中資料的負對數似然:

Invariant  Risk  Minimization(IRM) . IRM 要解決如下問題:

即他要學習一個 encoder 引數,這個 encoder 對所有的分類器引數都同時是最優的。為了完成這個目標,encoder 需要拋棄掉 spurious feature。但是這個優化形式 bi-level 的,非常難解決,因此他又提出了一個近似的 target。

1.3 The Overfitting Pitfall

本文的理論分析基於兩個假設:

1. Finite Sample Size:即每個域的資料量有限。

2. Sufficient  Capacity:即模型有能力記住所有資料點,也就是所謂的overfitting。,這裡是訓練資料。

這裡引入一個定義, Overfitting Region :。文章的第一個發現

Proposition 1 在上述假設條件下,IRM 在 上會退化為 ERM,除此之外,任何上的元素都是 IRM 的一個解。 也就是說,無論模型是否使用了 spurious feature,只要他能夠擬合所有訓練資料,那麼他就是 IRM 的一個解,這是非常恐怖的,因為這類模型在其他測試分佈的表現可能會任意差。

文章使用在 CMNIS T 上的一個小實驗來驗證他的理論結果,如下所示:

IRM 的懲罰項,即上面兩張圖的 penalty 被測量,但訓練的時候不使用。隨著 ERM 訓練的進行,IRM 懲罰衰減到零,而非不變指標表明模型中存在大量的虛假特徵。模型越大,訓練資料越少,IRM 懲罰消失的速度越快。

1.4 Bayesian Invariant Risk Minimization

Bayesian iinference 是一種緩解過擬合的著名方法,它被證明可以在模型錯誤描述的情況下實現最優樣本複雜度。

問題定義如上圖所示,如果我們給每個 domain 一個 classifier,那麼各個域的後驗概率是不同的,為了要每個 domain 的後驗概率相同,本文使用瞭如下的 target:

其中這兩個概率分佈定義如下:

IRM 的基本定義是基於的單點估計,當資料不足時,這可能是高度不穩定的。相對於點估計,BIRM 是由後驗分佈直接引起的,不太容易過擬合。文章還提出了一些其他 trick 比如 ELBO,Variance Reduced Reparameterization 等來幫助演算法估計後驗概率以及更快的收斂。

1.5 Experiments

作者在幾個半生成資料集上驗證了他的演算法,在它 involved 的資料集上都取得了不錯的效果,但是實用性依然存疑,個人認為該演算法與 IRM 可能一樣,在比較大的 benchmark 上效果可能不會太好,實際上當資料集較大甚至中等大小的時候,像 PACS 資料,ERM 在多個域的損失也不會很輕易的降到 0。

DARLING

論文標題:

Towards Unsupervised Domain Generalization

論文連結:

https://arxiv.org/abs/2107.06219

2.1 Motivation

目前的 DG 演算法大多采用在大資料集上預訓練的 backbone,然後開發演算法在下游資料集上進行 finetune,最後在 unseen 的資料集上進行測試。但是預訓練的資料集會引入認為的 bias,比如 imagenet 的影象大多來自於真實世界,因此其預訓練的模型在下游任務上非真實資料(手繪影象,漫畫影象)表現就會很差。本文考慮了一個新的 setting,即模型 先在多個源域上進行無監督的預訓練 ,然後進行傳統 DG 的過程,抹去傳統 pretrain 引入的 bias。

2.2 Method

本文的方法名稱為 Domain-Aware  Representation  Learn-ING(DARLING),這個方法嘗試使用自監督學習的技術來提升多域預訓練的方法從而提升泛化效能。傳統的自監督學習損失即:

這裡的是自監督中的 anchor 和 positive 特徵,和是兩個獨立的 encoder,是溫度引數。但是這種方法沒辦法建模域信心,因為在不同域實際上是不一樣的。每個域的條件分佈可以寫作:

這裡是域所選的樣本數目。最後,考慮域資訊之後,我們的條件分佈可以寫作:

模型架構如下所示,這裡的是下面 similarity predictor 的輸出。也就是說變成了各個 domain 對比學習損失的加權形式:

因此最後模型的損失函式寫為了:

2.3 實驗與結論

本文使用了四個資料集進行試驗,分別是 DomainNet,PACS,CIFAR-10-C 以及 CIFAR-100-C,主要結論如下所示:

1. 使用 DARLING 進行預訓練,所取得的泛化效果優於目前 SOTA 的自監督/以及傳統預訓練方法。

2. 類別數量以及資料量都會影響預訓練的效果,而且往往呈現正相關。但是 DARLING 使用不到 imagenet 10% 的資料量就可以取得相近的效果。驗證了 imagernet pretrain 並不是最優的。

3. 現有的 DG 方法通過結合 DARLING 預訓練可以進一步提升效能。

PCL

論文標題:

PCL: Proxy-based Contrastive Learning for Domain Generalization

論文連結:

https://openaccess.thecvf.com/content/CVPR2022/papers/Yao_PCL_Proxy-Based_Contrastive_Learning_for_Domain_Generalization_CVPR_2022_paper.pdf

3.1 Motivation

本文也是與 contrastive learning 相關的一篇文章,一個簡單的方法是將不同域的正樣本對拉得更近,同時將其他負樣本對推得更遠。本文發現 直接採用這種有監督的對比學習效果並不好 ,本文認為域之間存在的顯著的分佈差距,使得直接拉近正樣本對的距離反而阻礙了模型的泛化。因此本文提出了一個新的基於原型(proxy)的對比學習方法。

3.2 Method: Proxy-based Contrastive Learning

首先我們來看一下,基於原型的自監督學習方法與傳統自監督學習方法有什麼差別。如下圖所示:

PACS 資料集是一個典型的領域泛化基準,它包含四個領域:藝術、漫畫、照片和素描,每個領域有七個類別。DG 從多個源域(如藝術、照片、素描)訓練模型,並在目標領域(如漫畫)上進行測試。在訓練階段,目標資料集不能被訪問。

傳統的基於對比的損失 (例如,監督對比損失)利用其樣本到樣本的關係,其中來自同一類的不同域樣本可以被視為正對。我們認為,優化一些難正樣本對可能會惡化模型的泛化能力。本文稱之為 正對齊問題 ( positive alignment problem)。因為各個域之間的 gap 有可能會非常大,因此直接對齊不同域的正樣本反而可能對模型有害。本文提出了基於原型的對比損失來解決這個問題。二者的具體區別如下所示:

對傳統 self-supervised learning 而言,優化的是樣本到樣本的距離,而本文的方法優化的是樣本到原型,原型到原型之間的距離。本文整體的架構如下所示:

這裡的 PCL loss 也即是基於原型的對比學習方法的核心,他的正樣本即與他同類的 proxy,負樣本是不同類的 proxy,與同一 mini-batch 的其他資料。

3.3 實驗結果

在常見的幾個 DG 資料集上都取得 SOTA 的效能。

本文更有趣的地方是在於他的假設,用 self-supervised learning 的方法做 DG 是很直觀的,將不同 domain 同一類別的 feature 距離拉近,但是本文發現這種做法並不 work,並將方法做了小調整就取得了不錯的效能。

Style Neophile

論文標題:

Style Neophile: Constantly Seeking Novel Styles for Domain Generalization

論文連結:

https://openaccess.thecvf.com/content/CVPR2022/papers/Kang_Style_Neophile_Constantly_Seeking_Novel_Styles_for_Domain_Generalization_CVPR_2022_paper.pdf

4.1 Motivation

目前大多數 DG 方法都提到要學一個 domain-invariant 的特徵,這類方法通常假設每個域有不同的影象風格,然後 enforce 同一個類的影象在不同風格下的特徵是儘可能相似的。而,這些方法被限制在一個有限的風格集合上(我們得到的域的數目是有限的),因為它們從一組固定的訓練影象或通過插值訓練資料獲得增強的樣式。本文提出了一種新的方法,能夠產生更多風格的資料,這些風格甚至是完全沒有在訓練集出現過的。

4.2 Method

本文刻畫所謂影象風格的方式即使用影象的均值和方差,對於影象的 feature map,我們有。

本文的整體框架如下所示,我們來依次介紹每個部分。

首先模型維護了兩個 queues。一個儲存訓練影象的風格(source style queue SSQ),一個儲存合成影象的風格(novel style queue)。

合成影象風格的生成:

1. Prototype  selection. 在 SSQ 中選擇個原型,假設分別是 SSQ 中的全部風格和我們選擇的原型。為了選出最具代表性的,這一步的得分函式定義如下:

這裡的是 MMD 所使用的核函式。的選擇要儘可能使得這個得分最高。由於  radial ba-sis function(RBF)kernel 是單調且具有次模性質的,因此這個優化的實現,實際上是貪婪地選擇使得分最大的原型來完成的。

2. Random jittering for style candidates. 所選原型新增高斯噪聲,這裡 λ 為標量超引數;高斯分佈的標準差與 σ(S) 成比例。

3. Novel style selection。為了保證生成風格的多樣性,本文選擇了一些新穎的樣式,這些樣式不能被觀察到的樣式的近似分佈很好地代表。這裡用表示可觀測風格,是之前生成的風格佇列。為了定量的評估生成特徵的多樣性,本文采用瞭如下 metric:

其中,第一項衡量與生成風格的相似性,第二項衡量生成風格與觀察到的風格的相似性。將該函式最大化的新風格將很好地代表新風格,同時有別於觀察到的風格。同時本文還添加了 log-determinant regu-larizer,在優化過程中 log-determinant regu-larizer 鼓勵了所選風格的多樣性,並具有次模函式的性質。

最後就是訓練方法的改進了,有了這些新生成的資料,我們當然可以直接執行 DG 的方法,畢竟上述的過程實際上就是一個數據增強。本文在此基礎上給出了額外的約束條件,不過總的核心思想就是即使 style 發生了改變,模型的預測結果也應該儘可能相似。

該方法在多個 DG 資料集上取得了不錯的效果,但是由於方法複雜性較高,會比較難 follow。

總結

本文挑選了四篇 CVPR 與 DG 相關的文章,他們分別從因果不變性,預訓練方式,自監督學習 +DG 以及資料增強四個方面提出了新的方法,克服了以往的缺陷。但就目前而言,仍然沒有一個里程碑式的方法可以在絕大多數 OOD 的 benchmark 上展現出壓倒性效果,更好更快更強的方法仍然是目前所缺少的。

更多閱讀

# 投 稿 通 道 #

讓你的文字被更多人看到 

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是 最新論文解讀 ,也可以是 學術熱點剖析科研心得競賽經驗講解 等。我們的目的只有一個,讓知識真正流動起來。

:memo:  稿件基本要求:

• 文章確係個人 原創作品 ,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 

• 稿件建議以  markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供 業內具有競爭力稿酬 ,具體依據文章閱讀量和文章質量階梯制結算

:mailbox_with_mail:  投稿通道:

• 投稿郵箱: [email protected] 

• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信( pwbot02 )快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編

:mag:

現在,在 「知乎」 也能找到我們了

進入知乎首頁搜尋 「PaperWeekly」

點選 「關注」 訂閱我們的專欄吧

·

·