1.前言

2022年絕對可以說是AIGC元年，從google搜尋的趨勢來看，在2022年AI繪畫及AI生成藝術的搜尋量激增。

AI繪畫在這一年的爆發一個很重要的原因就是 Stable Diffusion 的開源，這也來不開這幾年 Diffusion Model 擴散模型在這幾年裡的迅猛發展，結合了 OPENAI 已經發展得很成熟的文字語言模型 GPT-3，從文字到圖片的生成過程變得更加容易。

2.GAN(生成對抗網路)的瓶頸

從14年誕生，到18年的StyleGAN，GAN在圖片生成領域獲得了長足的發展。就好像自然界的捕食者與被捕食者相互競爭共同進化一樣，GAN的原理簡單來說就是使用兩個神經網路：一個作為生成器、一個作為判別器，生成器生成不同的影象讓判別器去判斷結果是否合格，二者互相對抗以此訓練模型。

GAN（生成對抗網路）經過不斷髮展其有了不錯的效果，但有些始終難以克服的問題：生成結果多樣性缺乏、模式坍縮（生成器在找到最佳模式後就不再進步了）、訓練難度高。這些困難導致 AI 生成藝術一直難以做出實用的產品。

2.Diffusion Model（擴散模型）的突破

在 GAN 多年的瓶頸期後，科學家想出了非常神奇的 Diffusion Model（擴散模型）的辦法去訓練模型：把原圖用馬爾科夫鏈將噪點不斷地新增到其中，最終成為一個隨機噪聲影象，然後讓訓練神經網路把此過程逆轉過來，從隨機噪聲影象逐漸還原成原圖，這樣神經網路就有了可以說是從無到有生成圖片的能力。而文字生成圖片就是把描述文字處理後當做噪聲不斷新增到原圖中，這樣就可以讓神經網路從文字生成圖片。

Diffusion Model（擴散模型）讓訓練模型變得更加簡單，只需大量的圖片就行了，其生成影象的質量也能達到很高的水平，並且生成結果能有很大的多樣性，這也是新一代 AI 能有難以讓人相信的「想象力」的原因。

當然技術也是一直在突破的，英偉達在1月底推出的StyleGAN的升級版StyleGAN-T就有了十分驚豔的進步，在同等算力下相比於Stable Diffusion生成一張圖片需要3秒，StyleGAN-T僅需0.1秒。並且在低解析度影象StyleGAN-T要比Diffusion Model要好，但在高解析度影象的生成上，還是Diffusion Model的天下。由於StyleGAN-T並沒有像Stable Diffusion那樣獲得廣泛的應用，本文還是以介紹Stable DIffusion為主。

3.Stable Diffusion

在今年早些時間，AI作畫圈經歷了 Disco Diffusion、DALL-E2、Midjouney 群雄混戰的時代，直到 Stable Diffusion 開源後，才進入一段時間的塵埃落定，作為最強的 AI 作畫模型，Stable Diffusion 引起了 AI 社群的狂歡，基本上每天都有新的模型、新的開源庫誕生。尤其是在Auto1111的WebUI版本推出後，無論是部署在雲端還是本地，使用Stable Diffusion都變成一個非常簡單的事情，並且隨著社群的不斷開發，很多優秀的專案，比如Dreambooth、deforum都作為 Stable Diffusion WEBUI版的一個外掛加入進來，使得像微調模型、生成動畫等功能都能一站式完成。

4.AI繪畫玩法及能力介紹

下面介紹下目前使用 Stable Diffusion 可以有哪些玩法以及能力

5.目前主要應用情況介紹

6.自己搭一個Stable Diffusion WEBUI服務

6.1 雲端版本

這裡使用AutoDL提供的雲端算力來搭建，也可以使用其他平臺比如 Google Colab或者百度飛槳等。

1.首先在AutoDL上註冊賬號並且租一臺 A5000/RTX3090 顯示卡的雲主機。http://www.autodl.com/market/list

2.以此主機建立映象，映象可在 www.codewithgpu.com 上選擇已經打包好的演算法映象。這裡以 http://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/Stable-Diffusion-for-NovelAI 這個映象為例，選擇後建立。

3.建立後開機並啟動JupterLab，

執行下面指令啟動服務即可。如果遇到系統盤空間不足的情況，也可以將stable-diffusion-webui/資料夾移入資料盤 autodl-tmp再啟動。如果遇到啟動失敗，可以根據你機器的位置配置一下學術資源加速。

cd stable-diffusion-webui/ rm -rf outputs && ln -s /root/autodl-tmp outputs python launch.py --disable-safe-unpickle --port=6006 --deepdanbooru

6.2 本地版本

如果你有一塊顯示卡還不錯的電腦，那可以部署在本地，這裡介紹下Windows版本的搭建：

1.首先需要安裝Python 3.10.6，並且新增環境變數到Path中

2.安裝git

3.Clone Stable Diffusion WEBUI 的工程程式碼到本地

4.將模型檔案放置於 models/Stable-Diffusion目錄下，相關模型可以去http://huggingface.co/ 下載

5.執行 webui-user.bat，通過本機電腦ip及7860埠訪問服務。

7.總結

本文介紹了AI繪畫的一些相關的資訊，感興趣的朋友也可以自己把服務部署起來，自己試著學習用DreamBooth或者最新的Lora微調一下大模型。相信在2023年，隨著 AIGC 熱度的不斷提高，我們的工作和生活都會因為 AI 帶來巨大的改變。前段時間 ChatGPT的推出給我們帶來了巨大的震撼，就好像剛進入網際網路時期搜尋資訊的能力一樣，今後學會使用 AI 來輔助我們的工作也將是一個非常重要的能力。

8.參考資料

從起因到爭議，在 AI 生成藝術元年聊聊 AI http://sspai.com/post/76277
神經網路學習筆記6——生成式AI繪畫背後的的GAN與Diffusion初解 http://blog.csdn.net/qq_45848817/article/details/127808815
How diffusion models work: the math from scratch
http://theaisummer.com/diffusion-models/
GAN 結構概覽
http://developers.google.com/machine-learning/gan/gan_structure
The absolute beginners guide to Midjourney – a magical introduction to AI art http://www.entrogames.com/2022/08/absolute-beginners-guide-to-midjourney- magical-introduction-to-ai-art/
The viral AI avatar app Lensa undressed me—without my consent http://www.technologyreview.com/2022/12/12/1064751/the-viral-ai-avatar-app- lensa-undressed-me-without-my-consent/
instruct-pix2pix http://huggingface.co/timbrooks/instruct-pix2pix

文/misotofu

今年很火的 AI 繪畫怎麼玩