「小樣本+AutoML」,改變演算法生產的「核武器」?

語言: CN / TW / HK

碎片化場景,要麼定製演算法,要麼改變生產模式。

作者 | 秀松

編輯 | 餘快

資料、演算法、算力,被稱為AI的三駕馬車。

其中,資料對於演算法模型的效果至關重要:以深度學習為核心的AI,為了避免發生過擬合或欠擬合的情況,需要使用大量資料來進行模型訓練,從而使模型達到更好的擬合優度,這對於解決場景問題無疑大有裨益。

不過,通過大量資料來訓練演算法,從理論上看無懈可擊,但當AI走向落地場景,就不那麼容易了。

以資料問題為例:

對於碎片化場景,資料成了老大難。

1、很多場景不具備資料採集的條件,或者說採集資料成本太高。
2、資料是否有效,無效的資料除了百無一用之外,還會形成噪聲干擾,處理起來也費時。
3、一些場景資料量不夠大,很難做到大樣本

沒有足夠量的資料,就難以訓練出好的演算法模型,解決場景問題也就無從談起。

這實際上是產業數字化轉型面臨的重大難題之一:以人工智慧為核心的數字化轉型,在實際場景落地時,由於技術使用的先決條件存在短板,很難釋放對產業轉型的推力。

"從成本收益上看,在一些場景下,AI形如雞肋,無法解決實際問題,更無法降本增效。"

中科智雲CEO兼首席科學家魏巨集峰告訴AI掘金志,數字化轉型趨勢下,隔行如隔山,整個市場需求都是碎片化的,這對AI而言提出了兩大挑戰: 要麼做場景定製化;要麼改變現在的演算法生產模式。

但這兩種方式都逃不開前面提到的資料問題。

對於一些封閉場景,比如園區物流,通過場景定製化方案可以實現全自動化流程,然而這並不適用於碎片化的開放場景;此外,定製化成本過高,單獨開發演算法則會面對投入產出比嚴重不匹配的問題。

因而,比較合適的解決方法,是改變現有的演算法生產模式。

這也是小樣本學習(FSL)和AutoML(自動機器學習)火熱的根本原因。

FSL與AutoML

小樣本學習屬於機器學習下的一個分支,誕生於碎片化場景很難獲取足夠有效的資料這一背景下,旨在通過較少的資料量或樣本,來訓練演算法模型。

與傳統機器學習相比,小樣本學習的優勢在於,不需要大量資料支撐,但這同樣也帶來問題:資料量太少導致經驗風險最小化不可靠。

所謂經驗風險,是指模型關於訓練樣本集的平均損失。通常情況下,樣本容量足夠大(傳統機器學習),經驗風險最小化能保證有很好的學習效果;反之,樣本量太小,經驗風險最小化學習的效果就難以保證。

舉個例子:

假設以小孩子為演算法模型,漢字為樣本資料,目標任務是認識漢字"我"。當小孩子抄寫"我"的次數足夠多,那麼小孩子的學習效果就更好;反之,如果只抄寫了數次,那麼小孩子可能認識"我",也可能不認識,經驗風險是不可靠的。(案例並不嚴謹,僅供參考)

目前行業內已經開始通過資料增強、模型約束空間、搜尋演算法等方式來解決小樣本學習存在的問題。

"如果模型能力足夠強,對樣本的需求並不一定要非常大。"魏巨集峰表示,一個好的模型,可通過小樣本學習來形成自我訓練,從而提高演算法精度與適應性。

而建立好的演算法模型,與AutoML(自動機器學習)密切相關。

在傳統AI演算法開發流程中,從業務和問題定義,到資料採集和標註、儲存管理、資料分析和視覺化,再到模型結構設計、優化......最後到應用開發,需要經歷大概十三個環節,其時間成本、開發成本處於高位。

對於沒有演算法開發能力,但有演算法應用需求的企業而言,這個流程非常"複雜",且成本較高,難以承受。

因而只專注於演算法選取和神經網路架構搜尋的傳統AutoML是無法滿足現實需求的,涵蓋演算法研發全流程的AutoML應運而生,從特徵工程、模型構建、超參選擇,優化方法四方面實現自動化,其優勢在於:既減少了演算法生產成本,又提高效率,並且降低了演算法生產門檻。

比如,傳統AI演算法生產流程中,需要對資料進行人工標註,並且花大量時間處理資料;可以通過自動標註,結合人工複檢,來提高資料標註效率。

在業界,已經有許多較為成熟的AutoML平臺,國外如FeatureLab(自動進行特徵工程)、Google Cloud Vertex AI NAS;國內則有第四正規化的AI Prophet AutoML等等。

除此之外,還有一些AI公司,比如中科智雲,也在做相應的類似的平臺(X-Brain)。

作為一家聚焦安全治理的AI公司,中科智雲主要以X-Brain AI主動學習平臺,融合小樣本學習框架、多源融合感知計算等技術,為行業提供AI 安全治理服務。

"X-Brain 的核心是一套主動學習演算法框架,應用自研的主動學習(Active Learning)技術,改變了監督學習的被動接受人工標註樣本的模式。"

魏巨集峰告訴AI掘金志,該平臺可通過AI主動判斷樣本是否需要演算法工程師的參與,通過只讓演算法工程師參與部分困難樣本的確認,形成人在迴路(Human-in-the-Loop)模式,主動訓練模型,形成模型自動迭代。

前面提到,小樣本學習是為了解決碎片化場景無法獲取大量資料訓練模型的問題,而AutoML是在傳統演算法模式下,通過主動學習來提高演算法生產效率,解放人力成本。

換句話說,小樣本學習解決資料難題,AutoML則是提高演算法生產效率的新方法,兩者互相結合,或能解決小樣本學習存在的演算法精度問題。

不可能三角?

"小樣本是低成本的基礎,因為樣本量小,訓練模型不需要高算力硬體裝置。"魏巨集峰表示,如何讓小樣本學習達到商用精度,是一個巨大挑戰。

因為,小樣本學習存在經驗風險最小化不可靠這一問題,也就是學習效果不確定,可通俗理解為演算法精度可能高,也可能低。

"在一些場景中,小樣本訓練出來的精度,在初期很難達到商用水平。但可以通過AutoML來縮短從初期模型到商用這個過程。"

魏巨集峰介紹道,X-Brain在採集樣本之後,通過特徵提取自動標註,並自動訓練模型,由具體的業務人員來進行評價,檢視是否發生誤報,並調整引數。

基於這些調整,該平臺的自動訓練機制,將已標註完的資料放入重新訓練......通過這種迴圈訓練,來提高演算法精度。

在這個過程中,樣本量小,模型也不大,通過主動訓練來提高精度,從而實現低成本使用。

所以,小樣本、低成本和高精度之間,並非存在一個"不可能三角"。

仍以之前的小孩子識字為例:小孩子只抄寫數次"我",其結果是可能認識"我",也可能不認識。如果引入老師進行引導、校正,那麼即便抄寫次數較少,其認識漢字"我"的可能更大。

這個案例中,老師扮演了業務人員的角色,小孩子就是演算法模型。演算法(小孩子)在自動學習過程中,需要由業務人員(老師)來調整引數(引導),學習效果也就更好。

其優勢在於,給小孩子減負(減少抄寫次數)的同時,提高學習效率(演算法精度);從整個學習過程看,老師(業務人員)也無需全程監督,從而減少成本。

這實際上改變了以往的演算法生產模式,將演算法生產帶入"平民化""低成本"時代。

AI與場景融合

AI從上半場進入下半場,實際上是從拼技術到拼場景的轉變:AI只有在實際場景中落地才能產生價值。

在產業數字化轉型中,各種碎片化場景,對演算法的精度要求也比較高。如果按照傳統的演算法生產模式,成本降不下來,加上中小企業購買力弱,傳統企業數字化轉型必然難產。

而多樣化場景中,也很難以通用演算法來"一口多吃"。

"不同的場景需要不同的資料樣本,訓練出來的模型也不一樣,通用演算法模型並不適用,精度會大打折扣。"

魏巨集峰表示,小樣本學習和AutoML從技術上解決演算法生產難題,但如何讓技術更好地服務於企業,解決實際場景問題,就需要 把具體場景痛點拆解之後,融入到整個演算法生產過程中 ,從業務和問題定義開始,到模型調優,最後到演算法交付,都要"讓懂業務的人蔘與"。

這主要體現在兩個方面:一是讓企業在平臺上進行實驗,也就是業務試錯;二是與企業加強互動,讓懂業務的人員參與到演算法訓練中來。

"客戶並不追求百分百的精度,能夠接受誤報,但不能接受試錯成本太高,帶來總成本上升。"魏巨集峰認為,AI下半場由場景驅動,其實也是客戶驅動,核心是解決客戶(企業)在生產過程中遇到的問題。而AI公司要做好場景,最好的方式是直接與熟悉場景的業務人員互動,而不是AI公司本身去理解行業,否則成本會很高。

對於企業而言,考慮成本收益是其購買技術服務的出發點,成本(包括試錯、時間、人力等多個方面)則是第一要素,其次才考慮技術帶來的收益問題。

魏巨集峰表示,企業購買技術服務之後,只有在降本增效方面取得實際效果,復購率才會提高,AI公司才能形成正向的業務閉環。

"AI只有靠業務,而不是資本推動,才能走出困局,改變行業。"而做好業務的首要前提是:結合場景。

不論是小樣本學習還是機器學習,都只是生產演算法的"術",結合場景解決產業數字化轉型過程中的痛點,才是AI的"康莊大道"。

推薦閱讀