覆蓋100餘篇論文,這篇綜述系統回顧了CV中的擴散模型
在這篇論文中,來自布加勒斯特大學、中佛羅里達大學的 Mubarak Shah(IEEE Fellow)等幾位研究者對計算機視覺中的 100 多篇去噪擴散模型論文進行了全面回顧。
機器之心報道,編輯:趙陽。

擴散模型在深度生成模型中自成一派,最近成為計算機視覺領域最熱門的話題之一(見圖 1)。擴散模型展示了強大的生成能力,無論是生成高水平的細節還是其生成的多樣性,都讓人印象深刻。

我們甚至可以說,這些生成式模型將生成式建模領域的標準提高到了一個全新的水平,尤其是 Imagen 和 Latent Diffusion Models(LDM)等模型。迄今為止,擴散模型已被應用於各種生成式建模任務,如影象生成(image generation)、影象超分(mage super-resolution)、影象修復( image inpainting)、影象編輯(image editing)、影象轉換(image-to-image translation)等等。此外,人們發現擴散模型學習到的潛在表徵在鑑別性任務中也很有用,例如,影象分割、分類和異常檢測。這證實了去噪擴散模型具有廣泛的適用性,還有待發現進一步的應用場景。此外,強大的潛在表徵學習能力還創造了與表徵學習的聯絡,表徵學習是一個研究學習強大資料表徵方法的綜合領域,涵蓋了從新型神經結構的設計到學習策略的發展等多種演算法領域。
根據圖 1 所示的圖表,關於擴散模型的論文數量正在以非常快的速度增長。為了概述這個快速發展的主題從過去到現在的成就,本文作者對計算機視覺中去噪擴散模型的文章進行了全面回顧。

論文連結: https:// arxiv.org/pdf/2209.0474 7.pdf
更準確地說,本文關注的文章滿足以下定義:具有(1)前向擴散階段,在這個過程中對輸入資料新增高斯噪聲,來逐步實現擾動;(2)反向 / 後向擴散階段的一類深度生成模型,在這個過程中,生成模型的任務是通過學習逐步反轉擴散過程,從擴散(噪聲)資料恢復原始輸入資料。
根據研究者的說法,至少有三個子類別的擴散模型符合上述定義。
第一個子類別包括去噪擴散概率模型(DDPMs),其靈感來自非平衡熱力學理論。DDPMs 是潛變數模型,採用潛變數來估計概率分佈。從這個角度來看,DDPMs 可以被看作是一種特殊的變分自編碼器(VAEs),其中正向擴散階段對應於 VAE 內部的編碼過程,而反向擴散階段對應於解碼過程。
第二個子類別的代表是噪聲條件下的分數網路(NCSN),基於分數匹配機制訓練得到一個共享的神經網路,用來估計不同噪聲水平下擾動資料分佈的分數函式(定義為對數密度的梯度)。
隨機微分方程(SDEs)代表了另一種建立擴散模型的方式,形成了擴散模型的第三個子類別。通過正向和反向 SDEs 對擴散進行建模,可以得到有效的生成策略以及強有力的理論結果。第三種(基於 SDEs)可以被看作是對 DDPMs 和 NCSNs 的概括。
研究者確定了幾個模型設計方案的決定要素,並將它們綜合為三個通用的擴散建模框架,對應於上面介紹的三個子類別。為了把通用的擴散建模框架放在背景中,研究者還進一步討論了擴散模型和其他深度生成模型之間的關係。更具體地說,本文描述了與變分自編碼器(VAE)、生成對抗網路(GAN)、基於能量的模型(EBM)、自迴歸模型和歸一化流的關係。然後,本文還介紹了應用於計算機視覺的擴散模型的多視角分類任務,並根據一些標準對現有模型進行了分類,如基礎框架、目標任務或去噪條件。
最後,本文說明了目前擴散模型的侷限性,並設想了一些有趣的未來研究方向。例如,最棘手的限制之一可能是推理過程中的時間效率低下問題,這是由於存在非常多的評價步驟。就算是生成一個樣本也需要成千上萬的評估步驟。所以,在不影響生成樣本質量的前提下克服這一侷限性,是未來研究的一個重要方向。
擴散模型的三種表述
擴散模型是一類概率生成模型,它可以學習逆轉一個通過新增不同尺度的噪聲來逐漸降低訓練資料結構的過程。在第二章的 3 個小節中,本文介紹了擴散模型的三種表述,即去噪擴散概率模型、噪聲條件下的得分網路,以及基於隨機微分方程的方法,該方法是對前兩種方法的概括。對於每一種表述,作者都描述了向資料新增噪聲的過程、學習逆轉這一過程的方法、以及在推理時如何產生新的樣本。在圖 2 中,所有這三種提法都被作為一個通用框架來說明。本文在最後一個小節中專門討論了與其他深度生成模型的聯絡。

擴散模型的分類
研究者考慮到不同的分類標準,將擴散模型歸入一個多角度的分類法。也許區分模型的最重要標準是由(i)它們所應用的任務和(ii)它們所需要的輸入訊號來定義的。此外,由於在制定擴散模型時有多種方法,(iii) 基礎架構是對擴散模型進行分類的另一個關鍵因素。最後,訓練和評估過程中使用的資料集也非常重要,因為這有助於在同一任務上比較不同的 baseline。研究者根據前面列舉的標準對擴散模型進行了分類,見表 1。



在第三章的其餘部分,作者選擇目標任務作為區分方法的主要標準,並介紹了幾個關於擴散模型的貢獻。作者表示,選擇這個分類標準是因為它對擴散模型的研究具有相當的平衡性和代表性,便於從事特定任務的讀者快速掌握相關工作。儘管主要任務通常與影象生成有關,但在其他主題上,如超解析度、繪畫、影象編輯、影象到影象的翻譯或分割,已經進行了相當多的工作來鼓勵甚至超越 GANs 的效能。
感興趣的讀者可以閱讀論文原文,瞭解更多研究細節。
擴充套件閱讀: 擴散模型爆火,這是首篇綜述與 Github 論文分類彙總
- 解密數字時代 AI 加持之道,網易智企聯合機器之心釋出 AI 應用實踐白皮書
- INDEMIND:高需求和低滲透之間,服務機器人為何規模化落地難?
- AI,能為1.2億聽障老人做點什麼
- 探索計算機視覺前沿,螞蟻技術研究院4篇論文入選NeurIPS
- 蘑菇車聯推出L4巴士及「汽車大腦」,由公共服務切入商業運營
- ECCV 2022 | 無需下游訓練,Tip-Adapter大幅提升CLIP影象分類準確率
- “天池杯”全國中小學科技少年AI領航計劃啟動
- 儲存和操作n維資料的難題,谷歌用一個開源軟體庫解決了
- 炸響平地驚「雷」,自動駕駛公司能否接下「雷神」之錘
- OpenDILab幕後的「孤勇者」:AI研究員、電競冠軍和他們的開源夢
- 寒武紀行歌獲博世創業投資公司投資,攜手助力自動駕駛產業發展
- 華為雲位居中國DevOps市場領導者,份額、戰略雙第一!
- 還只會卷論文嗎?70頁報告解密頂級大廠如何玩轉AI技術(附完整下載連結)
- 現在都2202年了,用CPU做AI推理訓練到底能不能行?
- 中山大學通過深度學習分子模擬加速有理PROTAC設計,助力藥物研發
- 覆蓋100餘篇論文,這篇綜述系統回顧了CV中的擴散模型
- PillPack兩位創始人將離職,亞馬遜醫療健康業務佈局“屢敗屢戰”
- 7199元起,英偉達RTX 40系顯示卡終於來了:基礎效能翻倍,光追翻4倍
- 截圖帶島、玩王者榮耀看不見金幣,iPhone 14 Pro靈動島翻車了
- 資料安全公司Fortanix完成C輪融資,是時候採用一種新的企業資料安全方法了!