NeurIPS 2022 | Unified SSL Benchmark:首個將視覺、語言和音訊分類任務進行統一的半監督分類學習基準

語言: CN / TW / HK

當使用監督學習(Supervised Learning)對大量高質量的標記資料(Labeled Data)進行訓練時,神經網路模型會產生有競爭力的結果。例如,根據Paperswithcode網站統計,在ImageNet這一百萬量級的資料集上,傳統的監督學習方法可以達到超過88%的準確率。然而,獲取大量有標籤的資料往往費時費力。

為了緩解對標註資料的依賴, 半監督學習 (Semi-supervised Learning/SSL)致力於在僅有 少量 的標註資料時利用 大量無標籤 資料(Unlabeled Data)來提升模型的泛化性。半監督學習亦是機器學習的重要主題之一。深度學習之前,這一領域的研究者們提出了諸如半監督支援向量機、熵正則化、協同訓練等經典演算法。

深度半監督學習

隨著深度學習的興起, 深度 半監督學習演算法也取得了長足的進步。同時,包括Google、Meta和微軟等在內的科技巨頭也認識到了半監督學習在實際場景中的巨大潛力。例如,Google利用噪聲學生訓練(Noisy student training)這一半監督演算法提高了其在搜尋方面的效能。當前最具代表性的半監督演算法通常對標註資料使用交叉熵損失進行訓練,對無標註資料使用 一致性正則 技術(Consistency Regularization)鼓勵對輸入擾動進行不變預測。例如,Google在NeurIPS 2020提出的FixMatch演算法利用增強錨定(Augmentation Anchoring)和固定閾值(Fixed Thresholding)技術來增強模型對不同強增強資料的泛化性和減少噪聲偽標籤(Noisy Pseudo Labels)的影響。在訓練中,FixMatch過濾了低於使用者指定(user-provided / pre-defined)閾值的無標籤資料。

微軟亞洲研究院與東京工業大學等在NeurIPS 2021合作提出的FlexMatch則考慮到了 不同類 之間的學習難度不同,因此提出了 課程偽標籤 (Curriculum Pseudo Labeling)技術對於不同類應該採用不同的閾值。具體來說,對於容易學習的類別,模型應該設定高閾值以降低噪聲偽標籤的影響;對於難學習的類,模型應該設定低閾值鼓勵該類的擬合。每個類的學習難度評估取決於落入該類且高於固定值的未標記資料樣本的數量。

同時,研究員和這些學校還合作提出了一個統一的基於Pytorch的半監督方法程式碼庫 TorchSSL ,對該領域的深度方法、常用資料集、和基準結果進行了統一的支援。

微軟亞洲研究院聯合東京工業大學等單位提出的FlexMatch演算法

當前 半監督學習程式碼庫存在的問題與挑戰

儘管半監督學習的發展如火如荼,但是,研究員們注意到目前大部分半監督論文 只關注 計算機視覺 (CV) 分類任務,而 其他領域 (例如自然語言處理 (NLP)、音訊處理 (Audio))研究者無法得知這些在CV任務上有效的演算法是否依然有效。另外,大部分半監督論文都是由谷歌,微軟等大型機構發表的,學術界的實驗室往往由於計算資源的限制不能一起推動半監督領域的發展。總的來說,半監督學習基準目前存在以下兩個問題:

(1) 多樣性不足。 現有的半監督學習基準大多侷限於計算機視覺 (CV) 分類任務(即 CIFAR-10/100,SVHN,STL-10 和 ImageNet 分類), 排除了對自然語言處理 (NLP)、音訊處理 (Audio) 等分類任務的一致和多樣化評估,而在NLP和Audio中缺乏足夠的標記資料也是一個普遍問題。

(2) 耗時且對學術界不友好。 現有的半監督學習基準(如TorchSSL)通常是耗時且不環保的,因為它需要通常從頭開始訓練深度神經網路模型。具體而言,使用 TorchSSL評估FixMatch[1]大約需要 300 個GPU日。如此高的訓練成本使得許多研究實驗室(尤其是學術界的實驗室或小研究團體)無法負擔得起SSL的相關研究,從而阻礙了SSL的進展。

USB: 任務多樣化和對研究者更友好的新基準庫

微軟亞洲研究院的研究員們聯合西湖大學、東京工業大學、卡內基梅隆大學、馬克斯-普朗克研究所等機構的研究人員們提出了 USB :第一個將 視覺,語言,和音訊 分類任務進行統一的半監督分類學習基準。相比於之前的半監督學習基準(如TorchSSL)只關注少量視覺任務,該論文不僅引入更多樣化的應用領域,還 首次 利用視覺預訓練模型(Pretrained Vision Transformer)大大縮減了半監督演算法的驗證時間( 從7000GPU時縮減至900GPU時 ),使得半監督研究對研究者、特別是小研究團體更友好。USB的相關論文已被國際人工智慧頂會NeurIPS 2022接收。

此工作由多個單位合作完成:第一作者為王一棟(東京工業大學碩士、微軟亞洲研究院與西湖大學實習生)、陳皓(卡耐基梅隆大學)、範越(馬克斯·普朗克研究所);通訊作者是來自微軟亞洲研究院的王晉東和來自西湖大學的張嶽。其餘作者來自清華大學、微軟亞洲工程院、南京大學、奈良先端科學技術大學院大學和北京大學。

USB: 統一的半監督學習框架

USB提供的解決方案

那麼,USB如何一次性解決當前半監督基準存在的問題呢?研究員們進行了如下的改進:

(1)為增強任務多樣性,USB引入了5個CV 資料集,5個NLP資料集和5個音訊資料集提供了一個多樣化且具有挑戰性的基準,從而能夠對來自不同領域的多個任務進行一致的評估。下表提供了USB與TorchSSL的任務和訓練時間等方面的詳細對比。

(2)為提高訓練效率,研究員們將預訓練的Vision Transformer引入SSL,而不是從頭訓練ResNets。具體而言,研究員們發現在 不影響效能 的情況下使用預訓練模型可以大大減少訓練迭代次數(例如,將 CV 任務的訓練迭代次數從100萬步減少到 20 萬步)。

(3)為了對研究人員更加友好,研究員們開源實現了14種 SSL演算法並開源了一個模組化程式碼庫和相關的配置檔案以供研究者輕鬆再現USB報告中的結果。為了快速上手,USB還提供詳細的文件和教程。此外,USB還提供 pip包 以供使用者直接呼叫SSL演算法。研究員們承諾未來會在USB中不斷加入新的演算法(例如不平衡半監督演算法等)和更多更具挑戰性的資料集。下圖展示了USB中已支援的演算法和模組。

USB中已支援的演算法和模組

總結

半監督學習通過利用大量無標籤資料來訓練更精確、更魯棒的模型,在未來有著重要的研究和應用價值。研究員們期待通過USB這一工作,能夠予力學術界和工業界在半監督學習領域取得更大的進展。

參考

  1. Google半監督學習   https://ai.googleblog.com/2021/07/from-vision-to-language-semi-supervised.html
  2. FixMatch   https://arxiv.org/abs/2001.07685
  3. FlexMatch   https://proceedings.neurips.cc/paper/2021/file/995693c15f439e3d189b06e89d145dd5-Paper.pdf
  4. TorchSSL   https://github.com/TorchSSL/TorchSSL
「其他文章」