可生成高清視訊的Stable Diffusion來了!解析度提升4倍,超分演算法來自騰訊,支援Colab線上試玩
明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
免費玩的Stable diffusion,又出新變種了!
古典人像絲滑切換,還都是4倍超解析度水平,細節也就多了億點點吧,眉毛髮絲都根根分明。
還能從一盤草莓義大利麵,絲滑變成一份藍莓面。
這就是最近在推特上火了Stable Diffusion視訊版2.0.
它能夠通過Real-ESRGAN進行上取樣,讓生成畫面達到4倍超分。
要知道,之前Stable Diffusion生成的影象如果想要高清,還得自己手動提升解析度。
現在直接二合一,在谷歌Colab上就能跑!
食用指南
Colab上的操作非常簡單,基本上就是傻瓜式按照步驟執行即可。
需要注意的是,過程中要從個人Hugging Face賬戶中複製token登入。
拉取模型前,記得在Hugging Face上授權,否則會出現403錯誤。
搞定以上問題後,就能來用Stable Diffusion來生成高清視訊了。
生成一段視訊需要給出2個提示詞,然後設定中間的步數,以及是否需要上取樣。
中間步驟越多,生成所需的時間越長;同樣上取樣也會一定程度上加長生成時間。
還能直接用程式碼來跑,修改幾個簡單的引數就能搞定。
除了線上模式外,該模型還支援本地執行,專案已在GitHub上開源。
注意需要額外安裝Real-ESRGAN。
超分演算法來自騰訊
簡單來說,這次Stable Diffusion的變種版本就是把生成的圖片,通過超解析度方法變得高清。
Stable Diffusion的原理,是擴散模型利用去噪自編碼器的連續應用,逐步生成影象。
一般所言的擴散,是反覆在影象中新增小的、隨機的噪聲。而擴散模型則與這個過程相反——將噪聲生成高清影象。訓練的神經網路通常為U-net。
不過因為模型是直接在畫素空間執行,導致擴散模型的訓練、計算成本十分昂貴。
基於這樣的背景下,Stable Diffusion主要分兩步進行。
首先,使用編碼器將影象x壓縮為較低維的潛在空間表示z(x)。
其中上下文(Context)y,即輸入的文字提示,用來指導x的去噪。
它與時間步長t一起,以簡單連線和交叉兩種方式,注入到潛在空間表示中去。
隨後在z(x)基礎上進行擴散與去噪。換言之, 就是模型並不直接在影象上進行計算,從而減少了訓練時間、效果更好。
再來看超解析度部分。
用到的方法是騰訊ARC實驗室此前開發的 Real-ESRGAN ,被ICCV 2021接收。
它可以更有效地消除低分辯率影象中的 振鈴和overshoot偽影 ;
面對真實風景圖片,能更逼真地恢復細節,比如樹枝、岩石、磚塊等。
原理方面,研究人員引出了 高階退化過程 來模擬出更真實全面的退化,它包含多個重複的經典退化過程,每個又具有不同的退化超參:
下圖為Real-ESRGAN進行退化模擬的示意圖:
採用的是 二階退化 ,具體可分為在模糊(blur)、降噪(noise)、resize、JPGE壓縮幾個方面。
到訓練環節,Real-ESRGAN的生成器用的是RRDBNet,還擴充套件了原始的×4 ESRGAN架構,以執行resize比例因子為×2和×1的超解析度放大。
想要單獨使用這種超分演算法也不是問題。
在GitHub上下載該模型的可執行檔案,Windows/Linux/MacOS都可以,且不需要CUDA或PyTorch的支援。
下好以後只需在終端執行以下命令即可使用:
./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png
值得一提的是,Real-ESRGAN的一作 Wang Xintao 是影象/視訊超解析度領域的知名學者。
他本科畢業於浙江大學本科,香港中文大學博士(師從湯曉鷗),現在是騰訊ARC實驗室(深圳應用研究中心)的研究員。
此前曾登頂GitHub熱榜的專案GFPGAN也是他的代表作。
One More Thing
前兩天,大谷老師也釋出了用Stable Diffusion生成了一組少女人像,效果非常奈斯。
順帶讓我們都完成了一下“閱女無數”的成就(doge)。
Stable Diffusion還能玩出哪些新花樣?你不來試試嗎?
Colab試玩:
https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb
GitHub地址:
https://github.com/nateraw/stable-diffusion-videos
Hugging Face授權:
https://huggingface.co/CompVis/stable-diffusion-v1-4
參考連結:
[1]https://twitter.com/_nateraw/status/1569315090314444802
[2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
- LeCun:概率論無法實現真正AI,我們要退回原點重新開始
- Text-to-3D!建築學小哥自稱程式設計菜鳥,攢了個AI作畫三維版,還是彩色的
- 連你家電器的算力都不放過,新發現Linux惡意軟體用IoT裝置挖礦,大小僅376位元組
- Linux之父是個果粉:給自用M2 Mac裝上Fedora Linux,除了圖形加速和Chrome都搞定了
- 在百度搞發明的人
- 40系顯示卡首批7199元起!賽博朋克2077幀數x4,老黃:大部分畫素都是AI預測而非計算
- DeepMind用新AI超越自己:提速200倍,在所有雅達利遊戲上勝過人類
- 比標準Attention快197倍!Meta推出多頭注意力機制“九頭蛇”
- 可生成高清視訊的Stable Diffusion來了!解析度提升4倍,超分演算法來自騰訊,支援Colab線上試玩
- 大規模顯示卡挖礦徹底涼涼,網友開香檳坐等價格崩盤,老黃連夜發40系預熱
- 小鵬打響特斯拉FSD對壘第一槍,城市路況AI開,目前僅限廣州
- 學術審稿潛規則被Science曝光:作者名氣越大,審稿人打分越高
- 7cm半機械蟑螂火了!極端環境也能做搜救工作,網友:我得嚇死
- 2022位元組跳動Byte Camp夏令營:53所高校學員雲端完成24個專案
- 理想總裁2天套現近1億上熱搜,網友:要跑?
- 抖音智創語音團隊三維菁彩聲助力總檯中秋晚會沉浸式直播
- iOS 16升級引熱議,網友吐槽鎖屏太花哨,潘粵明更新後一度登不上微信
- 扎克伯格把PyTorch捐了!已歸入Linux基金會
- 晚上多吃不一定會胖,Cell子刊最新研究顛覆減肥認知
- 誰是下一個丘成桐?產業界也開始關心這事兒了