大模型時代，那些一起訓練AI模型的企業是怎麼應對資料顧慮的？

語言: CN / TW / HK

時間 2022-08-17 18:12:49 機器之心

主題: 聯邦學習 Linux工具

機器之心原創

作者：張倩

為訓練資料建一個TB級計算「飛地」，聯邦學習的靠譜實現方式瞭解一下？

2017 年，著名雜誌《經濟學人》發表封面文章稱，資料已經取代石油成為當今世界最有價值的資源。在那之後，「 資料是新時代的『石油』 」這一說法逐漸深入人心。

圖源：http://twitter.com/theeconomist/status/860135249552003073

五年後的今天，人們對資料的重視又上了一個新的臺階，尤其是在 AI 領域。大家普遍認為，資料的質量和規模將對 AI 的研究和落地產生重要影響。

在質量方面，吳恩達等學者提出， AI 領域正經歷從「以模型為中心」到「以資料為中心」的轉變。他認為，「對於很多行業來說，現在更有效率的做法是保持神經網路體系架構不變，轉而尋找改進資料的方法」。為了幫助機構提升資料質量，吳恩達所在的 Landing.AI 等公司正在構建一些實用的工具。

在規模方面，AI 大廠掀起的大模型暴力美學依然佔據主流，人們依然希望藉助大資料、大算力探索深度學習的天花板。不過，與大模型需要的海量資料相比，單個機構所能處理的資料往往是不充分的：一是資料量不夠大，二是資料的維度和來源不夠豐富。為了解決這些問題，越來越多的機構開始走向多方聯合的道路，希望藉助多方的合力訓練出更精準的 AI 模型，讓資料在流通中發揮應有的價值。

不過，受限於法律法規、政策監管、商業機密、個人隱私等資料隱私安全上的約束，多個數據來源方無法直接交換資料，這就形成了「 資料孤島 」現象，制約著 AI 模型能力的進一步提高。受此需求驅動，聯邦學習應運而生。

聯邦學習的核心思想是通過在多個擁有本地資料的資料來源之間進行分散式模型訓練，在不需要交換本地個體或樣本資料的前提下，僅通過交換模型引數或中間結果的方式，構建基於多方資料下的全域性模型，從而實現「 資料可用不可見 」、「 資料不動模型動 」。

和 2016 年穀歌剛剛提出這一概念時不同，聯邦學習如今已經有了很多具體的實現路徑，既有基於軟體的，也有基於硬體的。其中，基於硬體的路徑——主要是 TEE （Trusted Execution Environment，可信執行環境）——由於可支援多層次、高複雜度的演算法邏輯實現以及運算效率高等優勢而受到廣大企業的青睞，落地速度也在不斷加快，尤其在 醫療、金融 等資料安全要求較高的行業。

基於 TEE 的醫療科研多方安全計算平臺

首先來說醫療行業。AI + 醫療是一個發展較早的細分領域，但直到今天，Geoffrey Hinton 2016 年的預言——AI 將取代放射科醫生——依然沒有實現。在種種阻礙因素中，醫療領域的資料聚合是一個繞不開的難題，包括患者生命體徵資訊、疾病資訊、影像檢驗報告、網際網路診療記錄、藥品使用等各種不能離開醫院的基礎資料。

近幾年，採用 TEE 方案的聯邦學習方法在各醫療科研機構的實踐中收穫了良好的效果，它可以為「使用中」（即處於計算或處理中）的資料提供保護，與其他針對靜態資料和傳輸中的資料的保護方法一起，為資料流動與共享「護航」。

三種狀態下的資料保護

為了保護這些使用中的資料，TEE 會在硬體中為它們單獨分配一塊隔離的記憶體區域，所有相關資料的計算均在這塊區域中進行，並且除了經過授權的介面外，硬體中的其他部分均不能訪問這塊隔離的記憶體中的資訊，以此來實現隱私計算。

與一般的分散式機器學習或深度學習方案相比，聯邦學習方法可以為醫療科研增添以下優勢：

醫療資料不脫離本地，各參與方可接入各自資料訓練全域性模型；
每個醫療科研參與方都可參與訓練過程，模型損失可控；
訓練過程能更好地兼顧隱私和安全需求，各參與方能在不暴露資料及加密形態的前提下進行聯合建模。

如果這種聯邦學習方法或方案能再加上一個字首——「基於 TEE」，那麼它還會收穫更多強化功能，例如它可以通過硬體環境上的隔離，使 安全保護機制獨立於軟體應用、作業系統或硬體配置之外 ，使其保護的物件可以更好地應對來自硬體驅動程式、虛擬機器乃至作業系統的攻擊。再如，它的用途，不僅僅是可以提供 資料執行態全鏈路的保護 ，來確保 資料中的機密、隱私和完整性 得到更強的防護，它還能對指定的應用程式或演算法的程式碼進行同樣可靠的防護；又如，它還擁有更完備的 遠端鑑權 能力，能讓相關資料和金鑰的傳遞更為可靠；最後，相比那些非硬體加速支援的聯邦學習及多方隱私計算方案，有 TEE 加持的方案，往往在 兼顧安全防護能力和提升資料處理效能 上有更好的表現。

正是這些優勢，給了眾多醫療科研機構選擇基於 TEE 構建自己的聯邦學習系統的理由。

以多年來一直深耕醫療 AI 與大資料技術創新的 醫渡雲 為例，這家公司基於聯邦學習等隱私計算方法打造了一個多方安全計算解決方案，自下而上包含面向院內外業務系統的資料採集系統、進行資料加工治理的專病庫以及開展多方隱私計算的安全計算平臺等幾個部分，其中的多方安全計算平臺也支援 TEE 方式進行構建。

醫渡雲多方安全計算解決方案整體架構

而且，他們採用的是實現 TEE 的一種主流技術—— 英特爾 ^® 軟體防護擴充套件（Intel ^® Software Guard Extensions，英特爾 ^® SGX）。

英特爾 ^® SGX技術實際作用示意圖

在工作時，SGX 技術會給相關資料分配一塊隔離區域，也叫「飛地（Enclave）」。我們可以把它理解成一個隔離醫院，但能入駐這個醫院的並不是已經被感染的患者，而是那些健康群體，即需要受到嚴密保護的應用程式碼或關鍵資料。SGX 技術能在 CPU 的支援下，在記憶體等特定硬體環境中構建出這樣一個飛地，讓各醫療科研機構的資料分析、模型訓練及推理所涉及的資料都執行在各自的飛地中，並通過訪問控制為這些應用程式碼和資料提供更可信賴的安全保障。

這種飛地獨立於作業系統、虛擬機器以及 BIOS 系統之外，也就是說，即便一些比你的應用程式更底層的基礎軟體或系統在惡意攻擊中淪陷，飛地也可以通過基於硬體的、增強型的安全防護更有效地阻斷這些攻擊，盡力避免其中的資料或程式碼被竊取或篡改。

那麼，這個「飛地」有多大呢？這和你要使用的英特爾處理器的種類及型號有關。醫渡雲解決方案使用的是英特爾去年釋出的面向單路和雙路伺服器的 第三代至強 ^® 可擴充套件處理器 ，它已經全面內建 SGX 技術，可在雙路伺服器上實現最大容量為 1TB 的保留加密記憶體區域（Enclave Page Cache，EPC，單顆處理器最高支援 512GB），這對於醫療科研機構進一步擴充套件 AI 模型訓練與推理的資料規模至關重要。

不過，如果你以為醫渡雲的方案僅僅是要借 SGX 技術來實現更大、更強的安全「飛地」的話，那就是小看了全新至強 ^® 可擴充套件處理器在 AI 實踐中的價值了——它除內建有 SGX 技術外，還有來自 英特爾 ^® 高階向量擴充套件 512（ 英特爾 ^® AVX-512）技術和 英特爾 ^® 深度學習加速（ 英特爾 ^® DL Boost）技術的加成，也可在兼顧更優安全能力的同時，為醫渡雲方案涉及的複雜計算需求提供有力支撐。

因此這款處理器在醫渡雲的多方安全計算解決方案中同時發揮著加固安全與提升效能的雙重價值。正是得益於它帶來的綜合優勢，醫渡雲已經開始支援多家醫院和醫療科研機構開發一系列基於該方案的聯合研究專案，同時也通過了中國資訊通訊研究院在隱私保護計算技術上的兩項認證 ——《基於多方安全計算的資料流通產品技術要求與測試方法》及《基於聯邦學習的資料流通產品技術要求與測試方法》。

基於 TEE 的多源金融大資料隱私計算技術驗證

另一個非常青睞 TEE 解決方案的是金融行業。與其他技術方案相比，以硬體為載體來為資料和程式碼提供安全可信環境的 TEE，在金融行業最關注的資料安全、效能以及可用性三個維度上，能取得接近「 帕累托最優 」的效果，因此受到較多企業的青睞。

聯邦學習中不同安全隱私技術綜合評估

在這個行業，企業通常需要將已有的大量 AI 應用以聯邦學習模式高效、便捷地擴充套件到現有的分散式大資料平臺上（如 Spark、Flink、Hadoop 叢集）。在此過程中，他們可能會遇到一些挑戰，比如如何在開展聯邦學習時依然保持 AI 訓練與推理的高效能？如何在應用 TEE 技術特性時做到資料的全棧可信？如何將二進位制應用程式不做改動地執行在 TEE 環境中？

英特爾與中國銀聯電子商務與電子支付國家工程實驗室組成的聯合研究團隊通過開源的統一大資料分析與 AI 平臺—— BigDL ，驗證了基於 TEE 的聯邦學習與實時預測方案，有助於解決上述問題。

如圖所示，基於英特爾 ^® SGX 技術的 BigDL 提供了自下而上可信的安全技術、不同層面的軟體框架以及用於連線大資料平臺和聯邦學習方法的端到端平臺。

基於英特爾 ^® SGX 技術的BigDL平臺架構

我們重點來看一下安全技術層面。在這一層面，該平臺通過第三代英特爾 ^® 至強 ^® 可擴充套件處理器整合的英特爾 ^® SGX 技術，提供了所需的 TEE 環境；同時，還通過加入 Gramine-SGX 這樣的開源 LibOS 元件，來加速既有 Al 模型或應用程式在 SGX 技術上的無縫遷移。Gramine-SGX 允許使用者在不修改相應模組程式碼的情況下，通過系統呼叫的方式直接在 SGX 環境中執行，大大降低了 SGX 技術的應用門檻。同時，這一元件的加入，也使英特爾開源的 OpenVINO ™ 工具套件和 OneDNN 等重要 Al 軟體工具能夠在 SGX 環境中方便地執行。

一種典型的基於英特爾 ^® SGX-BigDL 平臺的預測方案架構如下圖所示，使用者資料可以匯入基於 Gramine-SGX 的 SGX 環境中，由 BigDL 平臺負責連通和排程預測推理所需的模型庫、框架和工具，在完成預測推理後，再向使用者輸出相應結果，中間所涉及的資料和工作流程都可獲得更有效的安全保障。

典型的基於英特爾 ^® SGX-BigDL平臺的預測方案

聯合團隊的驗證結果表明，基於英特爾 ^® SGX-BigDL 平臺部署的實時計算與預測推理方案，能在更好地保障端到端資料安全的前提下，依舊保持預期的效能。

Gartner 曲線：聯邦學習技術還在上升期

「為什麼我們要投入聯邦學習？」中國人工智慧開源軟體發展聯盟副理事長王健宗博士在前段時間英特爾聯合國際學術期刊《Science》推出的「架構師成長計劃」第二季系列課程中提出了這樣一個問題。

為了解釋這個問題，他向大家展示了去年的 Gartner 技術成熟度曲線。這份曲線圖顯示， 聯邦學習當前正處於高速發展期 ，未來將成為一項非常重要的計算技術。這也是 Gartner 首次將聯邦學習納入技術成熟度曲線。

Gartner技術成熟度曲線

在應用方面，除了我們前面提到的醫療和金融場景，王健宗還系統地總結了聯邦學習在物聯網、政務等領域的應用。從這裡也可以看出，聯邦學習技術的應用範圍正在不斷擴大，越來越多企業正放下顧慮，更放心地參與到共同的 AI 應用開發中來。這背後，以 TEE 為代表的安全計算實現方案功不可沒。

聯邦學習在行業場景中的應用

值得一提的是，王健宗早在幾年前就曾帶領他在平安科技的團隊開始構建基於英特爾 ^® SGX 的 TEE 聯邦學習方案，也見證了這一技術地不斷迭代。他對第三代至強 ^® 可擴充套件處理器 1TB 的 EPC 容量以及英特爾 ^® SGX 對雲邊協同的支援印象深刻。他認為， 在現在大家都比較重視隱私保護、資料安全的環境下， 英特爾 ^® SGX 為我們提供了一個更安全的可信計算環境 。

對於聯邦學習未來的發展，王健宗主要看好三個方向： 自動化機器學習、零程式碼聯邦和大規模互聯互通 。他解釋說，聯邦學習現在仍然是一個比較複雜的技術，有很多工程方面的工作。未來他希望能實現自動化機器學習，以及通過簡單地拖拉拽，實現零程式碼的聯邦學習，進而讓聯邦學習應用到更多對資料、程式碼安全性要求更高的領域。

參考連結：http://www.jiqizhixin.com/articles/2022-02-20-3

更多聯邦學習的研究與應用實踐，歡迎掃描二維碼報名課程：

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]

「其他文章」