比監督學習做的更好:半監督學習

語言: CN / TW / HK

持續創作,加速成長!這是我參與「掘金日新計劃 · 10 月更文挑戰」的第10天,點選檢視活動詳情

導讀

為什麼半監督學習是機器學習的未來。

圖片

監督學習是人工智慧領域的第一種學習型別。從它的概念開始,無數的演算法,從簡單的邏輯迴歸到大規模的神經網路,都已經被研究用來提高精確度和預測能力。

然而,一個重大突破揭示了新增“無監督資料”可以提高模型泛化和效能。事實上,在非常多的場景中,帶有標籤的資料並不容易獲得。半監督學習可以在標準的任務中實現SOTA的效果,只需要一小部分的有標記資料 —— 數百個訓練樣本。

在這個我們對半監督學習的探索中,我們會有:

  1. 半監督學習簡介。什麼是半監督學習,它與其他學習方法相比如何,半監督學習演算法的框架/思維過程是什麼?
  2. 演算法:Semi-Supervised GANs。與傳統GANs的比較,過程的解釋,半監督GANs的效能。
  3. 用例和機器學習的未來。為什麼半監督學習會有如此大的需求,哪裡可以應用。

半監督學習介紹

半監督學習演算法代表了監督和非監督演算法的中間地帶。雖然沒有正式定義為機器學習的“第四個”元素(監督、無監督、強化),但它將前兩個方面結合成一種自己的方法。

這些演算法操作的資料有一些標籤,但大部分是沒有標籤的。傳統上,人們要麼選擇有監督學習的方式,只對帶有標籤的資料進行操作,這將極大地減小資料集的規模,要麼,就會選擇無監督學習的方式,丟棄標籤保留資料集的其餘部分,然後做比如聚類之類的工作。

圖片

這在現實世界中是很常見的。由於標註是很昂貴的,特別是大規模資料集,特別是企業用途的,可能只有幾個標籤。例如,考慮確定使用者活動是否具有欺詐性。在100萬用戶中,該公司知道有1萬用戶是這樣的,但其他9萬用戶可能是惡意的,也可能是良性的。半監督學習允許我們操作這些型別的資料集,而不必在選擇監督學習或非監督學習時做出權衡。

一般來說,半監督學習演算法在這個框架上執行:

  1. 半監督機器學習演算法使用有限的標記樣本資料集來訓練自己,從而形成一個“部分訓練”的模型。
  2. 部分訓練的模型對未標記的資料進行標記。由於樣本標記資料集有許多嚴重的限制(例如,在現實資料中的選擇偏差),標記的結果被認為是“偽標籤”資料。
  3. 結合標記和偽標籤資料集,建立一個獨特的演算法,結合描述和預測方面的監督和非監督學習。

半監督學習利用分類過程來識別資料資產,利用聚類過程將其分成不同的部分。

演算法:Semi-Supervised GAN

半監督的GAN,簡稱為SGAN,是生成對抗網路架構的一個變體,用於解決半監督學習問題。

在傳統的GAN中,判別器被訓練來預測由生成器模型生成的影象是真實的還是假的,允許它從影象中學習判別特徵,即使沒有標籤。儘管大多數人通常在GANs中使用訓練很好的生成器,可以生成和資料集中相似的影象,判別器還是可以通過以轉移學習作為起點在相同的資料集上建立分類器,允許監督任務從無監督訓練中受益。由於大部分的影象特徵已經被學習,因此進行分類的訓練時間和準確率會更好。

然而,在SGAN中,判別器同時接受兩種模式的訓練:無監督和監督。

  • 在無監督模式中,需要區分真實影象和生成的影象,就像在傳統的GAN中一樣。
  • 在監督模式中,需要將一幅影象分類為幾個類,就像在標準的神經網路分類器中一樣。

為了同時訓練這兩種模式,判別器必須輸出1 + n個節點的值,其中1表示“真或假”節點,n是預測任務中的類數。

在半監督GAN中,對判別器模型進行更新,預測K+1個類,其中K為預測問題中的類數,併為一個新的“”類新增額外的類標籤。它涉及到同時訓練無監督分類任務和有監督分類任務的判別器模型。整個資料集都可以通過SGAN進行傳遞 —— 當一個訓練樣本有標籤時,判別器的權值將被調整,否則,分類任務將被忽略,判別器將調整權值以更好地區分真實的影象和生成的影象。

圖片

雖然允許SGAN進行無監督訓練,允許模型從一個非常大的未標記資料集中學習非常有用的特徵提取,但有監督學習允許模型利用提取的特徵並將其用於分類任務。其結果是一個分類器可以在像MNIST這樣的標準問題上取得令人難以置信的結果,即使是在非常非常少的標記樣本(數十到數百個)上進行訓練。

SGAN巧妙地結合了無監督和監督學習的方面,強強聯合,以最小的標籤量,產生難以置信的結果。

用例和機器學習的未來

在一個可用資料量呈指數級增長的時代,無監督資料根本不能停下來等待標註。無數真實世界的資料場景會像這樣出現 —— 例如,YouTube視訊或網站內容。從爬蟲引擎和內容聚合系統到影象和語音識別,半監督學習被廣泛應用。

半監督學習將監督學習和非監督學習的過擬合和“不擬合”傾向(分別)結合起來的能力,建立了一個模型,在給出最小數量的標記資料和大量的未標記資料的情況下,可以出色地執行分類任務。除了分類任務,半監督演算法還有許多其他用途,如增強聚類和異常檢測。儘管這一領域本身相對較新,但由於在當今的數字領域中發現了巨大的需求,演算法一直在不斷地被創造和完善。

半監督學習確實是機器學習的未來。

英文原文:https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781