今年很火的 AI 繪畫怎麼玩
1.前言
2022年絕對可以說是AIGC元年,從google搜尋的趨勢來看,在2022年AI繪畫及AI生成藝術的搜尋量激增。
AI繪畫在這一年的爆發一個很重要的原因就是 Stable Diffusion 的開源,這也來不開這幾年 Diffusion Model 擴散模型在這幾年裡的迅猛發展,結合了 OPENAI 已經發展得很成熟的文字語言模型 GPT-3,從文字到圖片的生成過程變得更加容易。
2.GAN(生成對抗網路)的瓶頸
從14年誕生,到18年的StyleGAN,GAN在圖片生成領域獲得了長足的發展。就好像自然界的捕食者與被捕食者相互競爭共同進化一樣,GAN的原理簡單來說就是使用兩個神經網路:一個作為生成器、一個作為判別器,生成器生成不同的影象讓判別器去判斷結果是否合格,二者互相對抗以此訓練模型。
GAN(生成對抗網路)經過不斷髮展其有了不錯的效果,但有些始終難以克服的問題:生成結果多樣性缺乏、模式坍縮(生成器在找到最佳模式後就不再進步了)、訓練難度高。這些困難導致 AI 生成藝術一直難以做出實用的產品。
2.Diffusion Model(擴散模型)的突破
在 GAN 多年的瓶頸期後,科學家想出了非常神奇的 Diffusion Model(擴散模型)的辦法去訓練模型:把原圖用馬爾科夫鏈將噪點不斷地新增到其中,最終成為一個隨機噪聲影象,然後讓訓練神經網路把此過程逆轉過來,從隨機噪聲影象逐漸還原成原圖,這樣神經網路就有了可以說是從無到有生成圖片的能力。而文字生成圖片就是把描述文字處理後當做噪聲不斷新增到原圖中,這樣就可以讓神經網路從文字生成圖片。
Diffusion Model(擴散模型)讓訓練模型變得更加簡單,只需大量的圖片就行了,其生成影象的質量也能達到很高的水平,並且生成結果能有很大的多樣性,這也是新一代 AI 能有難以讓人相信的「想象力」的原因。
當然技術也是一直在突破的,英偉達在1月底推出的StyleGAN的升級版StyleGAN-T就有了十分驚豔的進步,在同等算力下相比於Stable Diffusion生成一張圖片需要3秒,StyleGAN-T僅需0.1秒。並且在低解析度影象StyleGAN-T要比Diffusion Model要好,但在高解析度影象的生成上,還是Diffusion Model的天下。由於StyleGAN-T並沒有像Stable Diffusion那樣獲得廣泛的應用,本文還是以介紹Stable DIffusion為主。
3.Stable Diffusion
在今年早些時間,AI作畫圈經歷了 Disco Diffusion、DALL-E2、Midjouney 群雄混戰的時代,直到 Stable Diffusion 開源後,才進入一段時間的塵埃落定,作為最強的 AI 作畫模型,Stable Diffusion 引起了 AI 社群的狂歡,基本上每天都有新的模型、新的開源庫誕生。尤其是在Auto1111的WebUI版本推出後,無論是部署在雲端還是本地,使用Stable Diffusion都變成一個非常簡單的事情,並且隨著社群的不斷開發,很多優秀的專案,比如Dreambooth、deforum都作為 Stable Diffusion WEBUI版的一個外掛加入進來,使得像微調模型、生成動畫等功能都能一站式完成。
4.AI繪畫玩法及能力介紹
下面介紹下目前使用 Stable Diffusion 可以有哪些玩法以及能力
5.目前主要應用情況介紹
6.自己搭一個Stable Diffusion WEBUI服務
6.1 雲端版本
這裡使用AutoDL提供的雲端算力來搭建,也可以使用其他平臺比如 Google Colab或者百度飛槳等。
1.首先在AutoDL上註冊賬號並且租一臺 A5000/RTX3090 顯示卡的雲主機。https://www.autodl.com/market/list
2.以此主機建立映象,映象可在 www.codewithgpu.com 上選擇已經打包好的演算法映象。這裡以 https://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/Stable-Diffusion-for-NovelAI 這個映象為例,選擇後建立。
3.建立後開機並啟動JupterLab,
執行下面指令啟動服務即可。如果遇到系統盤空間不足的情況,也可以將stable-diffusion-webui/資料夾移入資料盤 autodl-tmp再啟動。如果遇到啟動失敗,可以根據你機器的位置配置一下學術資源加速。
cd stable-diffusion-webui/
rm -rf outputs && ln -s /root/autodl-tmp outputs
python launch.py --disable-safe-unpickle --port=6006 --deepdanbooru
6.2 本地版本
如果你有一塊顯示卡還不錯的電腦,那可以部署在本地,這裡介紹下Windows版本的搭建:
1.首先需要安裝Python 3.10.6,並且新增環境變數到Path中
2.安裝git
3.Clone Stable Diffusion WEBUI 的工程程式碼到本地
4.將模型檔案放置於 models/Stable-Diffusion目錄下,相關模型可以去https://huggingface.co/ 下載
5.執行 webui-user.bat,通過本機電腦ip及7860埠訪問服務。
7.總結
本文介紹了AI繪畫的一些相關的資訊,感興趣的朋友也可以自己把服務部署起來,自己試著學習用DreamBooth或者最新的Lora微調一下大模型。相信在2023年,隨著 AIGC 熱度的不斷提高,我們的工作和生活都會因為 AI 帶來巨大的改變。前段時間 ChatGPT的推出給我們帶來了巨大的震撼,就好像剛進入網際網路時期搜尋資訊的能力一樣,今後學會使用 AI 來輔助我們的工作也將是一個非常重要的能力。
8.參考資料
- 從起因到爭議,在 AI 生成藝術元年聊聊 AI https://sspai.com/post/76277
- 神經網路學習筆記6——生成式AI繪畫背後的的GAN與Diffusion初解 https://blog.csdn.net/qq_45848817/article/details/127808815
- How diffusion models work: the math from scratch
https://theaisummer.com/diffusion-models/ -
GAN 結構概覽
https://developers.google.com/machine-learning/gan/gan_structure -
The absolute beginners guide to Midjourney – a magical introduction to AI art https://www.entrogames.com/2022/08/absolute-beginners-guide-to-midjourney- magical-introduction-to-ai-art/
- The viral AI avatar app Lensa undressed me—without my consent https://www.technologyreview.com/2022/12/12/1064751/the-viral-ai-avatar-app- lensa-undressed-me-without-my-consent/
- instruct-pix2pix https://huggingface.co/timbrooks/instruct-pix2pix
文/misotofu
- MySQL MVCC實現原理
- 為什麼專案老夭折?這份專案管理指南請收好
- “伯樂”流量調控平臺工程視角 | 得物技術
- 如何評估某活動帶來的大盤增量 | 得物技術
- 得物榜單|全鏈路生產遷移及B/C端資料儲存隔離
- 透過現象看Java AIO的本質 | 得物技術
- 時效準確率提升之承運商路由網路挖掘 | 得物技術
- 存貨庫存模型升級始末 | 得物技術
- 關於加解密、加簽驗籤的那些事 | 得物技術
- GPU推理服務效能優化之路 | 得物技術
- 得物供應鏈複雜業務實時數倉建設之路
- 從 0 到 1,億級訊息推送的穩定性保障 | 得物技術
- 前端監控穩定性資料分析實踐 | 得物技術
- 得物容器SRE探索與實踐
- 得物熱點探測技術架構設計與實踐
- 今年很火的 AI 繪畫怎麼玩
- 得物社群計數系統設計與實現
- 得物商家客服桌面端Electron技術實踐
- 得物商家客服桌面端Electron技術實踐
- 得物染色環境落地實踐