可生成高清視頻的Stable Diffusion來了！分辨率提升4倍，超分算法來自騰訊，支持Colab在線試玩

語言: CN / TW / HK

時間 2022-09-18 14:22:40 量子位

主題: 騰訊

明敏發自凹非寺

量子位 | 公眾號 QbitAI

免費玩的Stable diffusion，又出新變種了！

古典人像絲滑切換，還都是4倍超分辨率水平，細節也就多了億點點吧，眉毛髮絲都根根分明。

還能從一盤草莓意大利麪，絲滑變成一份藍莓面。

這就是最近在推特上火了Stable Diffusion視頻版2.0.

它能夠通過Real-ESRGAN進行上採樣，讓生成畫面達到4倍超分。

要知道，之前Stable Diffusion生成的圖像如果想要高清，還得自己手動提升分辨率。

現在直接二合一，在谷歌Colab上就能跑！

食用指南

Colab上的操作非常簡單，基本上就是傻瓜式按照步驟運行即可。

需要注意的是，過程中要從個人Hugging Face賬户中複製token登入。

拉取模型前，記得在Hugging Face上授權，否則會出現403錯誤。

搞定以上問題後，就能來用Stable Diffusion來生成高清視頻了。

生成一段視頻需要給出2個提示詞，然後設置中間的步數，以及是否需要上採樣。

中間步驟越多，生成所需的時間越長；同樣上採樣也會一定程度上加長生成時間。

還能直接用代碼來跑，修改幾個簡單的參數就能搞定。

除了線上模式外，該模型還支持本地運行，項目已在GitHub上開源。

注意需要額外安裝Real-ESRGAN。

超分算法來自騰訊

簡單來説，這次Stable Diffusion的變種版本就是把生成的圖片，通過超分辨率方法變得高清。

Stable Diffusion的原理，是擴散模型利用去噪自編碼器的連續應用，逐步生成圖像。

一般所言的擴散，是反覆在圖像中添加小的、隨機的噪聲。而擴散模型則與這個過程相反——將噪聲生成高清圖像。訓練的神經網絡通常為U-net。

不過因為模型是直接在像素空間運行，導致擴散模型的訓練、計算成本十分昂貴。

基於這樣的背景下，Stable Diffusion主要分兩步進行。

首先，使用編碼器將圖像x壓縮為較低維的潛在空間表示z（x）。

其中上下文（Context）y，即輸入的文本提示，用來指導x的去噪。

它與時間步長t一起，以簡單連接和交叉兩種方式，注入到潛在空間表示中去。

隨後在z（x）基礎上進行擴散與去噪。換言之，就是模型並不直接在圖像上進行計算，從而減少了訓練時間、效果更好。

再來看超分辨率部分。

用到的方法是騰訊ARC實驗室此前開發的 Real-ESRGAN ，被ICCV 2021接收。

它可以更有效地消除低分辯率圖像中的 振鈴和overshoot偽影 ；

面對真實風景圖片，能更逼真地恢復細節，比如樹枝、巖石、磚塊等。

原理方面，研究人員引出了 高階退化過程 來模擬出更真實全面的退化，它包含多個重複的經典退化過程，每個又具有不同的退化超參：

下圖為Real-ESRGAN進行退化模擬的示意圖：

採用的是 二階退化 ，具體可分為在模糊（blur）、降噪（noise）、resize、JPGE壓縮幾個方面。

到訓練環節，Real-ESRGAN的生成器用的是RRDBNet，還擴展了原始的×4 ESRGAN架構，以執行resize比例因子為×2和×1的超分辨率放大。

想要單獨使用這種超分算法也不是問題。

在GitHub上下載該模型的可執行文件，Windows/Linux/MacOS都可以，且不需要CUDA或PyTorch的支持。

下好以後只需在終端執行以下命令即可使用：

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是，Real-ESRGAN的一作 Wang Xintao 是圖像/視頻超分辨率領域的知名學者。

他本科畢業於浙江大學本科，香港中文大學博士（師從湯曉鷗），現在是騰訊ARC實驗室（深圳應用研究中心）的研究員。

此前曾登頂GitHub熱榜的項目GFPGAN也是他的代表作。

One More Thing

前兩天，大谷老師也發佈了用Stable Diffusion生成了一組少女人像，效果非常奈斯。

順帶讓我們都完成了一下“閲女無數”的成就（doge）。

Stable Diffusion還能玩出哪些新花樣？你不來試試嗎？

Colab試玩：

http://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub地址：

http://github.com/nateraw/stable-diffusion-videos

Hugging Face授權：

http://huggingface.co/CompVis/stable-diffusion-v1-4

參考鏈接：

[1]http://twitter.com/_nateraw/status/1569315090314444802

[2]http://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

版權所有，未經授權不得以任何形式轉載及使用，違者必究。

「其他文章」

「騰訊」