NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本影象分類學習方法

語言: CN / TW / HK

日前,全球最負盛名的 AI 學術會議之一NeurIPS(Neural Information Processing Systems)公佈了2022年論文接收結果。創新奇智投稿論文 《An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning》成功被NeurIPS 2022接收。

作為當前全球最負盛名的 AI 學術會議之一,NeurIPS 是每年學界的重要事件。NeurIPS全稱是 Neural Information Processing Systems,神經資訊處理系統大會,通常在每年 12 月由 NeurIPS 基金會主辦。大會討論的內容包含深度學習、計算機視覺、大規模機器學習、學習理論、優化、稀疏理論等眾多細分領域。 今年 NeurIPS 已是第 36 屆,將於 11 月 28 日至 12 月 9 日舉行,為期兩週。第一週將在美國新奧爾良 Ernest N.Morial 會議中心舉行現場會議,第二週改為線上會議。NeurIPS 2022 論文投稿早已在 5 月 19 日截止,今日官方終於公佈了錄用結果。根據官網郵件中給出的資料,本屆會議共有 10411 篇論文投稿,接收率為 25.6%,略低於去年的 26%。

論文解讀:

圖1:論文概要

論文概述:

本文提出了一種基於反標籤學習的半監督少樣本影象分類學習方法,包括以下步驟:構造元任務,使用預訓練的神經網路作為特徵提取器,提取元任務中支援集、查詢集以及無標籤影象資料集對應的特徵,並在支援集上訓練一個分類器用於後續分類任務;反標籤學習模組以較高正確率給無標籤資料打上反標籤,分類器在反標籤上進行學習更新,不斷迭代直到無法選出反標籤。正標籤學習模組,在反標籤模組迭代結束之後,得到類別均衡且正確率較高正標籤,並用分類器進行學習更新。

本文通過卷積神經網路提取元任務中對應資料的特徵,通過反標籤構造模組以較高正確率利用無標籤資料,並用分類器在反標籤資料上進行學習更新,進行迭代之後設計正標籤學習模組獲得類別均衡且正確率較高的正標籤,用分類器在正標籤資料上進行學習更新,以更加充分且高質量的利用無標籤資料,可以獲得更高的少樣本學習影象分類準確率。

創新背景:

隨著深度學習的發展,卷積神經網路在多個影象任務上已經超過了人類的水平,但是這些模型的訓練依賴大量的資料,在現實生活中有些資料的採集難度較大,例如對液晶顯示螢幕所有種類缺陷資料的採集,另外這些資料的標註也需要耗費大量的人力和財力。 相比之下,人類視覺系統可以從少量的例子中快速學習到新的概念和特徵,然後在新的資料中識別相似的物件。為了模仿人類的這種快速學習的能力,減少方法對於資料的依賴,少樣本學習近年來受到了越來越多的關注。少樣本學習旨在結合先驗知識快速地泛化到只包含少量有監督資訊的樣本的新任務中,在此設定下識別每個類別僅需要極少甚至一張帶標籤的樣本,所以可以極大地減少人工標註成本。

基於少樣本學習這樣資料量較少的設定,一個需要面臨的問題就是,在極少的帶標註資料上,很難讓模型較好的擬合到資料的分佈。因此為了解決這樣的問題,少樣本學習中出現了結合半監督的研究方向。另外為了解決資料標註困難的問題,反標籤學習的方法也應運而生。反標籤顧名思義就是給資料打上相反的標籤,是一種間接的方式代表該資料不屬於某個類別。這樣的做法可以大大降低資料標註的錯誤,例如對於一個5分類問題來說,給資料打真實標籤即正標籤錯誤的概率為給資料打反標籤錯誤概率的4倍。另外在半監督少樣本學習當中,由於帶標籤資料很少,因此模型在初始階段很難有好的效果。用這樣的模型給無標籤資料標記偽標籤將會出現大量的錯誤以及類別不平衡的現象。在這樣的情況結合反標籤學習的方法就可以解決這樣的問題。本發明研究的基於反標籤學習的半監督少樣本學習方法,針對半監督少樣本學習,設計適合的反標籤標註方法,並結合反標籤學習解決半監督少樣本學習中出現的無標籤資料利用不充分等問題。

目前,出現了許多研究半監督少樣本學習的方法,但依然存在一些問題: 1)給無標籤資料標註偽標籤的正確率較低,錯誤標記的樣本會影響最後的結果;2)無標籤資料上標註的偽標籤存在類別不平衡現象;3)方法較為複雜。

本論文主要貢獻:

本論文提出了一種基於反標籤學習的半監督少樣本影象分類學習方法。 方法具體如下:

步驟1,構造元任務,使用預訓練的神經網路作為特徵提取器用來提取影象資料,提取元任務中支援集、查詢集以及無標籤資料集對應的特徵,並在支援集上訓練一個分類器,用於後續影象分類任務;

步驟2,反標籤學習模組以較高的95%正確率給無標籤影象資料打上反標籤,用分類器在反標籤上進行學習更新,通過不斷迭代直到無法選出反標籤;

步驟3,正標籤學習模組得到類別均衡且正確率高達85%的正標籤,並用分類器進行學習更新;

步驟4,用訓練好的分類器在查詢集上預測得到最後影象分類的類別結果。

本文提出的方法與已有技術相比,其顯著優點為:

(1)本發明設計的反標籤學習模組,通過給無標籤影象資料標註反標籤並進行學習的方式,在模型效果還不好的初始階段,大大降低給無標籤影象資料標註標籤的錯誤率;

(2)經過反標籤學習模組之後,本發明設計的正標籤學習模組可以得到正確率高且類別均衡的正標籤,繼續對模型進行訓練;

(3)本發明提出的方法相較於之前的方法流程簡單,可以更充分且高質量利用無標籤影象資料進行學習,最後在影象分類任務上得到了更好的效果。

創新奇智CTO張發恩(論文作者之一)表示:“當前的深度學習技術對人工標註的資料樣本(也即帶標籤資料樣本)數量具有很大依賴性,如何減少對帶標籤資料樣本的依賴,利用較少的帶標籤資料樣本訓練出理想的視覺演算法模型成為當下亟待突破的技術難點。 少樣本學習旨在從已有類別的資料中學習先驗知識,然後利用極少的標註資料完成對新類別的識別,打破了樣本資料量的制約,在傳統制造業等樣本普遍缺失的領域具有實用價值,有助於推動AI落地。”

雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」