用於超大影象的訓練策略：Patch Gradient Descent_CV技術指南

前言本文旨在計算和記憶體限制的情況下，解決在大規模影象上訓練現有CNN 架構的問題。提出PatchGD，它基於這樣的假設：與其一次對整個影象執行基於梯度的更新，不如一次只對影象的一小部分執行模型更新，確保其中的大部分是在迭代過程中覆蓋。

當在大規模影象上訓練模型時，PatchGD 廣泛享有更好的記憶體和計算效率。尤其是在計算記憶體有限的情況下，該方法在處理大影象時比標準梯度下降法更穩定和高效。

歡迎關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

論文：http://arxiv.org/pdf/2301.13817.pdf

論文出發點

現有的使用 CNN 的深度學習模型主要在相對較低的解析度範圍（小於 300 × 300 畫素）上進行訓練和測試。這部分是因為廣泛使用的影象基準資料集。在高解析度影象上使用這些模型會導致相關啟用大小的二次增長，而這反過來又會導致訓練計算量和記憶體佔用量的大幅增加。此外，當可用的 GPU 記憶體有限時，CNN 無法處理如此大的影象。

解決使用 CNN 處理超大影象問題的工作非常有限。其中最常見的方法是通過降尺度來降低影象的解析度。然而，這會導致與小尺度特徵相關的資訊大量丟失，並且會對與影象相關的語義上下文產生不利影響。另一種策略是將影象劃分為重疊或不重疊的圖塊，然後按順序處理這些圖塊。然而，這種方法並不能保證塊之間的語義連結將被保留，並且它會阻礙學習過程。存在幾種類似的策略來嘗試學習大影象中包含的資訊，但是，它們無法捕獲全域性上下文限制了它們的使用。

這篇論文提出一種可擴充套件的訓練策略，旨在構建具有非常大的影象、非常低的記憶體計算或兩者結合的神經網路。

創新思路

本文認為“大影象”不應該根據它們所包含的畫素數量來簡單解釋，而是如果相應的計算記憶體預算很小，則影象應該被認為太大而無法使用 CNN 進行訓練。

因此提出PatchGD ，一次只使用影象的一部分執行模型更新，同時還確保它在多個步驟的過程中看到幾乎完整的上下文。

方法

General description

PatchGD 的核心是構建或填充 Z 塊。無論輸入的哪些部分用於執行模型更新，Z 都會根據從前幾個更新步驟中為影象的不同部分獲取的資訊構建完整影象的編碼。

Z 塊的使用如圖a 所示。首先將輸入影象分成 m×n 塊，每個塊使用 θ1 作為獨立影象處理。模型的輸出與各patch對應的位置相結合，並將它們作為批次傳遞給模型進行處理，用於填充 Z 的各個部分。

為了構建端到端 CNN 模型，添加了一個包含卷積層和全連線層的小型子網路，該子網路處理 Z 中包含的資訊，並將其轉換為分類任務所需的概率向量。模型訓練和推理的pipeline如下圖 b 所示。在訓練期間，更新模型元件 θ1 和 θ2。基於從輸入影象中取樣的一小部分patch，使用 θ1 的最新狀態計算相應的編碼，輸出用於更新已填充 Z 中的相應條目。然後使用部分更新的 Z 進一步計算損失函式值，並通過反向傳播更新模型引數。