今年很火的 AI 繪畫怎麼玩

語言: CN / TW / HK

1.前言

2022年絕對可以說是AIGC元年,從google搜尋的趨勢來看,在2022年AI繪畫及AI生成藝術的搜尋量激增。

640.jpg

AI繪畫在這一年的爆發一個很重要的原因就是 Stable Diffusion 的開源,這也來不開這幾年 Diffusion Model 擴散模型在這幾年裡的迅猛發展,結合了 OPENAI 已經發展得很成熟的文字語言模型 GPT-3,從文字到圖片的生成過程變得更加容易。

2.GAN(生成對抗網路)的瓶頸

從14年誕生,到18年的StyleGAN,GAN在圖片生成領域獲得了長足的發展。就好像自然界的捕食者與被捕食者相互競爭共同進化一樣,GAN的原理簡單來說就是使用兩個神經網路:一個作為生成器、一個作為判別器,生成器生成不同的影象讓判別器去判斷結果是否合格,二者互相對抗以此訓練模型。

640.png

GAN(生成對抗網路)經過不斷髮展其有了不錯的效果,但有些始終難以克服的問題:生成結果多樣性缺乏、模式坍縮(生成器在找到最佳模式後就不再進步了)、訓練難度高。這些困難導致 AI 生成藝術一直難以做出實用的產品。

2.Diffusion Model(擴散模型)的突破

在 GAN 多年的瓶頸期後,科學家想出了非常神奇的 Diffusion Model(擴散模型)的辦法去訓練模型:把原圖用馬爾科夫鏈將噪點不斷地新增到其中,最終成為一個隨機噪聲影象,然後讓訓練神經網路把此過程逆轉過來,從隨機噪聲影象逐漸還原成原圖,這樣神經網路就有了可以說是從無到有生成圖片的能力。而文字生成圖片就是把描述文字處理後當做噪聲不斷新增到原圖中,這樣就可以讓神經網路從文字生成圖片。

6401.png

Diffusion Model(擴散模型)讓訓練模型變得更加簡單,只需大量的圖片就行了,其生成影象的質量也能達到很高的水平,並且生成結果能有很大的多樣性,這也是新一代 AI 能有難以讓人相信的「想象力」的原因。

當然技術也是一直在突破的,英偉達在1月底推出的StyleGAN的升級版StyleGAN-T就有了十分驚豔的進步,在同等算力下相比於Stable Diffusion生成一張圖片需要3秒,StyleGAN-T僅需0.1秒。並且在低解析度影象StyleGAN-T要比Diffusion Model要好,但在高解析度影象的生成上,還是Diffusion Model的天下。由於StyleGAN-T並沒有像Stable Diffusion那樣獲得廣泛的應用,本文還是以介紹Stable DIffusion為主。

3.Stable Diffusion

在今年早些時間,AI作畫圈經歷了 Disco Diffusion、DALL-E2、Midjouney 群雄混戰的時代,直到 Stable Diffusion 開源後,才進入一段時間的塵埃落定,作為最強的 AI 作畫模型,Stable Diffusion 引起了 AI 社群的狂歡,基本上每天都有新的模型、新的開源庫誕生。尤其是在Auto1111的WebUI版本推出後,無論是部署在雲端還是本地,使用Stable Diffusion都變成一個非常簡單的事情,並且隨著社群的不斷開發,很多優秀的專案,比如Dreambooth、deforum都作為 Stable Diffusion WEBUI版的一個外掛加入進來,使得像微調模型、生成動畫等功能都能一站式完成。

6402.png

4.AI繪畫玩法及能力介紹

下面介紹下目前使用 Stable Diffusion 可以有哪些玩法以及能力

11.jpg

12.jpg

14.jpg

15.jpg

5.目前主要應用情況介紹

19.jpg

31529880d6c24b11bc54dde744214084.jpeg

6.自己搭一個Stable Diffusion WEBUI服務

6.1 雲端版本

這裡使用AutoDL提供的雲端算力來搭建,也可以使用其他平臺比如 Google Colab或者百度飛槳等。

1.首先在AutoDL上註冊賬號並且租一臺 A5000/RTX3090 顯示卡的雲主機。http://www.autodl.com/market/list

2.以此主機建立映象,映象可在 www.codewithgpu.com 上選擇已經打包好的演算法映象。這裡以 http://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/Stable-Diffusion-for-NovelAI 這個映象為例,選擇後建立。

6403.png

3.建立後開機並啟動JupterLab,

6404.png

執行下面指令啟動服務即可。如果遇到系統盤空間不足的情況,也可以將stable-diffusion-webui/資料夾移入資料盤 autodl-tmp再啟動。如果遇到啟動失敗,可以根據你機器的位置配置一下學術資源加速。

cd stable-diffusion-webui/ rm -rf outputs && ln -s /root/autodl-tmp outputs python launch.py --disable-safe-unpickle --port=6006 --deepdanbooru

6.2 本地版本

如果你有一塊顯示卡還不錯的電腦,那可以部署在本地,這裡介紹下Windows版本的搭建:

1.首先需要安裝Python 3.10.6,並且新增環境變數到Path中

2.安裝git

3.Clone Stable Diffusion WEBUI 的工程程式碼到本地

4.將模型檔案放置於 models/Stable-Diffusion目錄下,相關模型可以去http://huggingface.co/ 下載

5.執行 webui-user.bat,通過本機電腦ip及7860埠訪問服務。

7.總結

本文介紹了AI繪畫的一些相關的資訊,感興趣的朋友也可以自己把服務部署起來,自己試著學習用DreamBooth或者最新的Lora微調一下大模型。相信在2023年,隨著 AIGC 熱度的不斷提高,我們的工作和生活都會因為 AI 帶來巨大的改變。前段時間 ChatGPT的推出給我們帶來了巨大的震撼,就好像剛進入網際網路時期搜尋資訊的能力一樣,今後學會使用 AI 來輔助我們的工作也將是一個非常重要的能力。

8.參考資料

  1. 從起因到爭議,在 AI 生成藝術元年聊聊 AI http://sspai.com/post/76277
  2. 神經網路學習筆記6——生成式AI繪畫背後的的GAN與Diffusion初解 http://blog.csdn.net/qq_45848817/article/details/127808815
  3. How diffusion models work: the math from scratch
    http://theaisummer.com/diffusion-models/
  4. GAN 結構概覽
    http://developers.google.com/machine-learning/gan/gan_structure

  5. The absolute beginners guide to Midjourney – a magical introduction to AI art http://www.entrogames.com/2022/08/absolute-beginners-guide-to-midjourney- magical-introduction-to-ai-art/

  6. The viral AI avatar app Lensa undressed me—without my consent http://www.technologyreview.com/2022/12/12/1064751/the-viral-ai-avatar-app- lensa-undressed-me-without-my-consent/
  7. instruct-pix2pix http://huggingface.co/timbrooks/instruct-pix2pix

文/misotofu