自上而下or自下而上?混合類腦計算新框架:全都要

語言: CN / TW / HK

機器學習演算法流派眾多,但不外乎兩種基本構架,即自上而下傳播全域性誤差與自下而上基於相關性調整區域性神經元間的連線。近日清華大學的研究團隊模仿海馬體的神經元權重更新機制,在 Nature Communications 上提出了一種結合全域性與區域性權重更新規則的混合模型,並驗證了該模型在高噪聲、小資料量、持續學習三種任務場景下的優越性,為神經形態演算法及其硬體實現的協同開發開闢了一條新的路徑。

研究領域: 類腦計算,計算神經科學

郭瑞東   | 作者

張澳  | 審校

鄧一雪  | 編輯

論文題目:

Brain-inspired global-local learning incorporated with neuromorphic computing

論文地址:

https://www.nature.com/articles/s41467-021-27653-2

1. 類腦計算背景介紹

《終極演算法》一書提到機器學習的五個學派,分別是連線學派、符號學派、進化學派、貝葉斯學派和類推學派。不同學派各有所長,但其終極挑戰卻是一致的,即設計一個能夠統一解決各學派所面向的問題的“終極演算法”。

對於類腦計算,即模仿大腦執行機制的機器學習演算法,其主要方向聚焦在連線學派和進化學派上。前者將全域性的誤差逐層向後傳播,其典型演算法包括反向傳播演算法及尖峰神經網路 (spiking neural network,SNN) 。後者則是通過區域性神經元間的競爭,增強相關性高的神經元間的連線,常用於特徵提取和記憶等相關任務。儘管基於區域性相關性的學習方法能耗及延時均較低,但它在常見資料集上的表現不及當前最佳結果。

三因素學習法則和元學習嘗試融合兩種方向。其中三因素學習法則通過改變神經元的連線因素 (包括突觸前後的活動以及自上而下調控的神經遞質) ,以全域性的預測誤差指導區域性權重的調整。元學習則通過持續的學習來提升模型的學習能力,其神經學解釋是將神經遞質視為一種權重共享機制 (通過超引數優化的方式) 。元學習僅關注如何提高單個全域性模型的學習能力,而對區域性神經的可塑性予以忽略。

2. 混合模型演算法框架

遞質可以分為興奮性神經遞質和抑制性神經遞質,其中前者促進神經元之間建立連線,後者抑制神經活動、阻止神經元過於興奮或對無關刺激過度響應。在機器學習中,對各人工神經元間連線權重的訓練,可在神經學上解釋為改變不同神經元連線間興奮性和抑制性神經遞質的密度,以最小化全域性訓練誤差。

而記憶的形成方式則遵循赫布法則 (Hebbian rule) ,即同一時間出現的神經元,其連線會變得更緊密,從而讓大腦中形成專門識別某一特徵的神經元。例如,當視覺上總出現線狀畫素點時,大腦會形成專門識別水平線這一特徵的神經元,從而在需要識別數字時提取這些初級特徵,不必從頭學起。正是這樣的區域性資訊提取能力,使得人腦不會出現困擾機器學習學界的“災難性遺忘 (catastrophic forgetting) ”。

近日清華大學研究團隊所提出的神經網路框架 (圖1) 將神經元間的連線方式分為兩部分,分別為包含下一層神經元權重和全域性預測誤差的w GP 和基於區域性神經元活動的w LP 。其中θ代表超引數,用於調節神經元之間的連線,s t 代表記憶,能夠將連續訊號轉為不連續的判斷並最終決定該神經元的輸出。

圖1.  混合類腦計算模型的權重更新示意圖。全域性連線的改變對應神經元間膜電位差,基於反向傳播演算法訓練。而遵循赫布法則更新的區域性連線,其改變則對應神經元間鐵離子的濃度。

基於上述規則更新的尖峰神經網路,已被用於多種計算任務,並在曾登上 Nature 封面的天機類腦計算晶片上有對應的硬體實現。演算法和硬體的協同設計充分發揮了類腦計算的多核並行優勢。

3. 混合模型的效能優勢

與現有的尖峰神經網路模型相比,混合模型在影象分類的基線任務上準確性更高,且延遲更低。

表1. 在複雜度逐漸提升的五個影象資料集上,不同機器學習演算法的準確性及延遲。

在跨層級的神經元間採用不同的編碼方式,可以平衡計算量與效能。這表明該方案相比傳統的機器學習演算法,能在相同的架構下保有更高的靈活性。

圖2. 基於次數的編碼將一定時間內神經元啟用的平均次數作為神經元的輸出,從而降低計算量,但這同時也會降低模型準確性。而基於順序的編碼則會額外考慮神經元間啟用的先後順序。

與僅使用區域性或全域性規則更新權重的尖峰神經網路相比,混合模型的訓練效果更好,收斂過程更快也更平滑。

圖3. 對比不同訓練方法,相同架構的尖峰神經網路模型在各影象資料集上的表現。

4. 混合模型的容錯性

機器學習演算法在噪聲環境下或影象資料缺失時所呈現的效能,決定了其是否能真正落地。

圖4. 用於測試模型在鈍化(第二行)或噪聲(第三行)資料上效能表現的影象資料。

混合模型融合了基於區域性資訊的權重更新,因此在識別缺失資料的影象上,表現出了良好效能。尤其當資料缺失嚴重或噪聲程度高時,混合模型的表現明顯優於全域性模型。

圖5. 以全域性規則(GP)或混合規則(HP)更新權重的同架構模型,在包含不同噪聲和鈍化的MINST(左圖)和N-MINST(右圖)資料集上識別準確性的對比。

針對此類任務,混合模型相對於全域性模型的優越效能,源於區域性規則的更新能夠提取不隨噪聲或資料缺失而改變的特徵。這使得模型能夠利用在先前訓練資料中重複出現的模式,並通過權重衰減 (weight decay) 在相似刺激出現時啟用相關模式。

        

圖6. 遵循赫布原則的區域性更新能夠利用不同時間點的訓練資料,共享特徵識別模組。

混合模型不僅在噪聲環境下表現優越,其神經元間的權重也和識別完整資料的模型中的神經元更相似。

        

圖7. 資料缺失程度不同時,全域性模型和混合模型神經元權重間的平均歐式距離(上)和餘弦距離(下)。

5. 混合模型的小資料學習能力

對於某一類別的物件,若模型僅依據少量資料即可成功對其分類,那麼該模型具有小資料學習能力。而要達成這種能力,模型需要能夠充分利用以前學到的知識,而這正是人腦所擅長的。

混合模型對小資料學習能力的解決方案,是以足夠抽象的特徵作為全域性權重更新的輸入,從而減少調整權重所需的訓練次數,同時通過區域性連線建立小資料學習的推斷基礎。

        

圖8. 全域性模型和混合模型在Ominiglot資料集上預測準確度隨訓練輪數的變化。

        

表2. 混合模型相比於其它機器學習模型,預測準確度更接近於人類水平。

從以上比較可看出混合模型具有小資料學習能力。不僅如此,相比於區域性模型,混合模型在並行訓練時所需的CPU間通訊和計算量均更少。這不僅意味著混合模型的低碳化,還意味著在並行訓練時,其能耗不會隨著CPU數目增加而顯著提升,使其更適合應用於大規模平行計算。

圖9. 全域性(GP)、區域性(LP)及混合模型(HP)的跨核通訊頻寬(左)及計算量(右)。

6. 混合學習的持續學習能力

讓模型在學到新分類標籤的同時,不影響已學到標籤的分類,此類任務被稱為持續學習。通過隨機打亂標籤不同的訓練資料所出現的順序,並比較此時模型準確度的差異,可確定模型持續學習能力的強弱。例如在MINST資料集中,對比常規訓練方式得出的模型 (訓練資料隨機排列的訓練資料) 和逐個出現的訓練資料集 (先出現1和2,後出現3,依次類推) 的模型,兩種訓練方式得出的模型間準確度差異越小,該模型的持續學習能力越強。

人腦運動皮層的持續學習能力源於稀疏編碼,即為新學習的任務單獨分配部分神經元連線,從而減少周圍神經元受其的影響。受此啟發,混合模型在相同區域性連線調整的神經元之上,儘可能融合已學任務的全域性連線,從而使混合模型具備持續學習能力。

        

圖10. 具備持續學習能力的模型間準確度的對比,其中混合模型的準確度隨著待分類標籤數(橫軸)的增加,並未顯著下降,且其優勢相對其它模型越發明顯。

7. 軟硬兼施,走向未來

尖峰神經網路作為類腦學習中的基礎工具,其效能一直不如主流的深度學習模型。而該研究模仿海馬體的神經元權重更新機制,提出了一種在高噪聲、小資料量和持續學習三種任務場景下均表現優異的模型。利用演算法和硬體協同設計,研究者驗證了混合模型的優越性。該框架可用於開發具有低能耗的線上混合學習硬體,也可與現有的幾種有效學習演算法相結合,從而促成更高效的學習演算法,為神經形態學演算法和神經形態計算晶片的協同開發開闢了一條新的路徑。

大腦中相互連線的神經元能夠結合自上而下的調控資訊和自下而上的區域性資訊,以解決各類任務。而如何模仿大腦這一能力,則是神經科學和機器學習領域的一個重要問題。本研究所提出的模型從神經元動力學出發,結合了尖峰神經元的各種動力學行為,以及許多突出的生物學屬性,為基於尖峰神經網路的元學習提供了一種通用的方法。

複雜科學最新論文

集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自 Nature、Science 等頂刊的最新論文,追蹤複雜系統、網路科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每週通過微信服務號「集智斑圖」推送論文資訊。掃描下方二維碼即可一鍵訂閱:

點選“閱讀原文”,追蹤複雜科學頂刊論文