邊緣計算 | 在移動裝置上部署深度學習模型的思路與注意點

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第24天,點選檢視活動詳情

大家在新聞當中見到越來越多的令人振奮的人工智慧相關的應用新聞。

  • 『人工智慧在圍棋中擊敗了人類!』
  • 『基於神經網路的精準天氣預報』
  • 『會寫作創作的AI』
  • 『會說話的蒙娜麗莎繪畫』
  • 『繪畫藝術創作以假亂真的AI』

儘管新聞很炫酷甚至令人驚歎不已,但 AI 的應用與現實世界還有一些差距,核心的原因之一是它們的規模。為了取得更好的效果,現代AI神經網路模型會使用更大資料集、更多的模型引數,但這樣一方面訓練它們變得讓普通人遙不可及(需要特定的昂貴物理資源和大量的電力資源等),另外一方面使得實際推理應用也變得複雜(無法在小型裝置上部署,且推理時間很長)。

如果要讓 AI 能覆蓋現實生活中的場景問題,我們希望可以在資源有限的裝置上執行的更小的模型。另外一方面,隨著廣受關注的安全和隱私問題,我們也希望模型可以部署安裝在本地裝置上,而不是向伺服器傳輸任何資料進行請求。

接下來 ShowMeAI 給大家介紹和總結使 AI 模型能適用於小型本地裝置上的方法技術,實現思路包括:壓縮模型引數量設計更小的模型結構知識蒸餾調整資料格式資料複用等。我們還會介紹到移動小處理裝置的型別,適用移動裝置的模型框架等。

💡 模型壓縮&加速方法

深度學習模型需要記憶體和計算資源,移動裝置上這些都是緊缺的。最直接的處理方式是,通過降低深度學習模型的空間複雜性(引數數量)來適配移動裝置,從而在保持精度不太變的同時減少計算量。模型空間複雜度降低大體有5類方法:

  • 減少模型引數數量(例如剪枝和引數共享)
  • 通過量化減小模型大小
  • 知識蒸餾
  • 設計更小結構的模型
  • 輸入資料轉換

📌 剪枝

剪枝的基本思想是篩選並刪除一些對模型精度影響不大的冗餘引數,然後重新訓練模型以維持模型效能。基於神經網路的結構,我們可以修剪單個權重引數、模型層或模型層塊:

  • 非結構化修剪:無論神經元出現在哪,只要它不是顯著權重,就進行刪減剔除,通過模型的精度效果可以維持得很好,但這種方法導致稀疏矩陣運算,實際運算很難加速。
  • 結構化剪枝:利用模型在不同尺度上的結構稀疏性(包括濾波器稀疏性、核稀疏性和特徵對映稀疏性),直接移除一組引數(例如,整個卷積濾波器),這樣結構依舊是完整的,GPU等密集矩陣運算很方便,它的挑戰是在修剪的同時維持模型精度效果。

神經網路的剪枝裁剪壓縮,通常是迭代進行的。在每次迭代中,會修剪相對不重要的filter並重新訓練修剪後的模型(以恢復精度效果),直至修剪後的模型不能達到所需的最小精度時,剪枝迭代結束。

更詳細的內容介紹,大家可以在論文 📘Pruning and Quantization for Deep Neural Network Acceleration: ASurvey 中檢視。

📌 引數共享

另外一種處理思路是引數共享:我們不一定要裁剪和丟棄權重,而是當邊權重基本相似時,我們可以在多個邊上共享它們。

例如,對於都具有 N 個節點的兩個全連線層,我們需要儲存 N² 個權重。 但是,如果權重基本相似,先對其進行聚類,聚類到不同的簇,然後我們只儲存簇質心。

📌 網路量化

神經網路中使用的預設型別是 32 位浮點數,高精度浮點數使得模型在訓練階段可以準確地梯度傳播,得到更好的效果。但是在推理過程中就沒有這個必要了。

網路量化的關鍵思想是減少每個權重引數的儲存位數。例如從 32 位浮點壓縮到 16 位浮點、16 位定點、位定點等。

量化方面的大部分研究都集中在從較大範圍的數字對映到小得多的數字的舍入技術(rounding techniques)上——均勻/非均勻、對稱/不對稱量化。

有兩種主要的方法來實現量化:

  • 訓練後量化:這是最直接的方法——訓練後的模型權重被直接對映到較低的精度,之後無需額外的微調。但這種方法會降低模型的效果。
  • 量化感知訓練: 需要使用量化重新訓練模型以匹配原始模型的準確性。量化網路通常在與原始模型相同的資料集上重新訓練。為了保留梯度傳播的精準度,梯度不會被量化。

開箱即用的量化不太容易做,因為不同的網路部分可能需要不同的精度。因此,量化/去量化塊通常被插入中間以遍靈活轉化與使用。

關於網路量化的詳細的講解大家可以參考 📘論文 A Survey of Quantization Methods for EfficientNeural Network Inference

📌 知識蒸餾

在深度模型的學習權重存在顯著冗餘的假設下執行,我們可以通過訓練一個較小的模型(學生網路)來模擬教師輸出的分佈,從而提取大型模型(教師網路)學習到的知識。

模型蒸餾的關鍵思想是不僅僅使用訓練資料集中給出的『硬』標籤(比如分類問題中的類別標籤),而是充分使用更大模型提取的精細化知識(例如分類問題中,大模型輸出的類別概率向量)。

通過網路量化和剪枝,可以在壓縮達到 4 倍的情況下保持精度。而知識蒸餾通過另外一種角度,在不壓縮精度的情況下,直接在小模型上學習和保持效果;實際我們可以對所有方法組合使用。

關於知識蒸餾的更多詳細資訊,可以檢視 📘論文 Knowledge Distillation: A Survey

📌 結構優化&小型模型

深度學習演算法早期蓬勃發展,大部分的研究工作都集中在構建更大的模型,保證更強的學習能力,實現更先進的準確性。這一趨勢後來被一系列研究「效率-效果」權衡的論文所取代,很多論文中直接提出和設計了小結構的模型。

典型的論文有: 📘MobileNetV1、📘MobileNetV2、📘MnasNet、📘MobileNetV3

關於小型神經網路的詳細知識,大家可以檢視 ShowMeAI 這篇文章: 📘深度學習與CV教程(10) | 輕量化CNN架構 (SqueezeNet,ShuffleNet,MobileNet等)

📌 資料處理&轉換

另外一個處理思路是資料端,我們可以減少輸入資料的維度和數量來加速計算。

一個例子是將影象分解為兩個低解析度的子影象,其中一個承載高頻資訊,另一個包含低頻資訊。結合起來,實際我們保留了和原始影象相同的資訊,但具有更低的維度,即更小的輸入資料,網路也小一些。

更多詳細資訊,可以檢視 📘論文Learning a Wavelet-like Auto-Encoder to Accelerate Deep Neural Networks

💡 重用中間結果

另外一種加速思路是減少運算,比如有一些場景下我們可以避免冗餘的計算。

📌 多工之間資料重用

對於具有相同輸入的不同但相關任務,如果並行執行多個模型就會有冗餘的計算。很典型的一種思路是,在多個模型中重複使用來自淺層的特徵,而是用不同的深層結構來應對特定的任務。

📌 影象幀之間資料重用

有些場景,雖然輸入資料可能不完全相同,但可能足夠(例如連續視覺模型處理的相鄰幀),那此時可以部分重複使用資料。

有關更多詳細資訊,請檢視 📘論文DeepCache: Principled Cache for Mobile Deep Vision

💡 移動裝置上的深度學習框架

傳統深度學習庫 📘PyTorch和 📘Tensorflow並不特別適合移動應用。它們相對來說比較繁重並且有第三方依賴,在移動裝置上比較麻煩。最初這兩個框架都面向在伺服器端,強大的 GPU 上進行高效訓練,部署部分也通常是在伺服器上的。

不過隨著AI生態的演進和發展,它們專門為移動深度學習設計了框架:📘TensorFlow Lite和 📘PytorchLite,可以很有效地進行移動裝置上的訓練和部署。

開發移動深度學習應用程式的另一個挑戰是每個移動生產商的標準不同,有些人會在 Tensorflow 中執行他們的模型,有些人會在 Pytorch 中執行他們的模型,有些人甚至會使用自有框架。為了打破這種界線,我們可以使用 📘開放式神經網路交換ONNX 框架來完成從一個庫到到另一個庫的轉換。

大家還可以使用 📘OpenVINO,它通過專注於部署硬體來幫助優化深度學習應用程式,以便在雲和邊緣裝置上進行推理。

對於常用手機移動端開發的更多詳細資訊,大家可以檢視不同手機商的 API 文件:

除了上述提到的常見移動裝置部署優化方法,這些生廠商還包含針對性的模型在特定裝置上更高效的特定技巧。

💡 總結

深度模型需要在資源有限的移動裝置上部署應用,需要克服計算速度和記憶體資源等限制。我們提到了一些方法來減小模型大小和加快計算速度,包括網路端、資料端不同的思路,大家在進行移動端AI應用時可以參考和優化。

參考資料

「其他文章」