當 AI 邂逅繪畫藝術,能迸發出怎樣的火花?

語言: CN / TW / HK

前言

什麼是 AI?在你的腦海中可能浮現由一個個神經元堆疊起來的神經網路。那什麼是繪畫藝術?是達芬奇的《蒙娜麗莎的微笑》,是梵高的《星空夜》、《向日葵》,還是約翰內斯·維米爾的《戴珍珠耳環的少女》?當 AI 遇上繪畫藝術,它們之間能擦出什麼樣的火花呢?

 2021年初,OpenAI 團隊釋出了能夠根據文字描述生成影象的 DALL-E 模型。由於其強大的跨模態影象生成能力,引起自然語言和視覺圈技術愛好者的強烈追捧。僅僅一年多的時間,多模態影象生成技術如雨後春筍般開始湧現,期間也誕生了許多利用這些技術進行 AI 藝術創作的應用,比如最近火得一塌糊塗的 Disco Diffusion。如今,這些應用正逐漸走進藝術創作者和普通大眾的視野,成為了很多人口中的“神筆馬良”。

 本文從技術興趣出發,對多模態影象生成技術與經典工作進行介紹,最後探索如何使用多模態影象生成進行神奇的 AI 繪畫藝術創作。



 筆者使用 Disco Diffusion 創作的 AI 繪畫藝術作品



多模態影象生成概念

多模態影象生成(Multi-Modal Image Generation)旨在利用文字、音訊等模態資訊作為指導條件,生成具有自然紋理的逼真影象。不像傳統的根據噪聲生成影象的單模態生成技術,多模態影象生成一直以來就是一件很有挑戰的任務,要解決的問題主要包括:

(1)如何跨越“語義鴻溝”,打破各模態之間固有的隔閡?

(2)如何生成合乎邏輯的,多樣性的,且高解析度的影象?

近兩年,隨著 Transformer 在自然語言處理(如 GPT)、計算機視覺(如 ViT)、多模態預訓練(如 CLIP)等領域的成功應用,以及以 VAE、GAN 為代表的影象生成技術有逐漸被後起之秀——擴散模型(Diffusion Model)趕超之勢,多模態影象生成的發展一發不可收拾。



多模態影象生成技術與經典工作

按照訓練方式採用的是 Transformer 自迴歸還是擴散模型的方式,近兩年多模態影象生成重點工作分類如下:



Transformer 自迴歸

採取 Transformer 自迴歸方式的做法往往將文字和影象分別轉化成 tokens 序列,然後利用生成式的 Transformer 架構從文字序列(和可選影象序列)中預測影象序列,最後使用影象生成技術(VAE、GAN等)對影象序列進行解碼,得到最終生成影象。以 DALL-E (OpenAI)[1] 為例:



影象和文字通過各自編碼器轉化成序列,拼接到一起送入到 Transformer(這裡用的是 GPT3)進行自迴歸序列生成。在推理階段,使用預訓練好的 CLIP 計算文字與生成影象的相似度,進行排序後得到最終生成影象的輸出。與 DALL-E 類似,清華的 CogView 系列 [2, 3] 與百度的 ERNIE-ViLG [4] 同樣使用 VQ-VAE + Transformer 的架構設計,谷歌的 Parti [5] 則將影象編解碼器換成了 ViT-VQGAN。而微軟的 NUWA-Infinity [6] 使用自迴歸方式可以做到無限視覺生成。

擴散模型

擴散模型(Diffusion Model)是一種影象生成技術,最近一年發展迅速,被喻為 GAN 的終結者。如圖所示,擴散模型分為兩階段:(1)加噪:沿著擴散的馬爾可夫鏈過程,逐漸向影象中新增隨機噪聲;(2)去噪:學習逆擴散過程恢復影象。常見變體有去噪擴散概率模型(DDPM)等。



採取擴散模型方式的多模態影象生成做法,主要是通過帶條件引導的擴散模型學習文字特徵到影象特徵的對映,並對影象特徵進行解碼得到最終生成影象。以 DALL-E-2(OpenAI)[7] 舉例,其雖然是 DALL-E 的續作,但是採取的技術路線與 DALL-E 截然不同,其原理更像是 GLIDE [8](有人稱 GLIDE 為 DALL-E-1.5)。DALL-E-2 的整體架構如圖所示:



DALL-E-2 使用 CLIP 對文字進行編碼,並使用擴散模型學習一個先驗(prior)過程,得到文字特徵到影象特徵的一個對映;最後學習一個反轉 CLIP 的過程,將影象特徵解碼成最終的影象。相比於 DALL-E-2,谷歌的 Imagen [9] 則使用預訓練好的 T5-XXL 來取代 CLIP 進行文字編碼,然後使用超分擴散模型(U-Net 架構)增大影象尺寸,得到 1024:heavy_multiplication_x:1024 高清的生成影象。

自迴歸 Transformer 的引入與 CLIP 對比學習的方式,建立了文字和影象之間的橋樑;同時基於帶條件引導的擴散模型,為生成多樣性且高解析度的影象奠定了基礎。然而,評估影象生成質量往往帶有主觀因素,因此在這裡比較 Transformer 自迴歸還是擴散模型的技術誰更勝一籌是一件困難的事情。並且像 DALL-E 系列、Imagen 以及 Parti 等模型在大規模資料集上訓練,使用會存在倫理問題以及社會偏見,因此這些模型尚未開源。但是還是有很多愛好者在嘗試使用其中的技術,期間也產生了很多可玩的應用。



AI 藝術創作

多模態影象生成技術的發展,為 AI 藝術創作提供了更多的可能。目前,被廣泛使用的 AI 創作應用及工具包括 CLIPDraw,VQGAN-CLIP,Disco Diffusion,DALL-E Mini,Midjourney(需被邀請資格),DALL-E-2(需內測資格),Dream By Wombo(App),Meta ”Make-A-Scene”,Tiktok “AI 綠幕” 功能,Stable Diffusion [10],百度“一格”等。本文主要利用在藝術創作圈火爆的 Disco Diffusion 進行 AI 藝術創作。

Disco Diffusion 簡介

Disco Diffusion [11] 是一個在 Github 上由眾多技術愛好者共同維護的 AI 藝術創作應用,目前已經迭代了多個版本。從 Disco Diffusion 的名字不難看出,其採用的技術主要是用 CLIP 引導的擴散模型。Disco Diffusion 可以根據指定的文字描述(和可選底圖)來生成藝術影象或視訊。比如輸入“花海”,模型就會隨機產生一張噪聲影象,通過 Diffusion 的去噪擴散過程一步步迭代,達到一定步數後就能渲染出一張美麗的影象。得益於擴散模型多樣化的生成方式,每次執行程式都會得到不同的影象,這種“開盲盒”的體驗著實讓人著迷。

Disco Diffsion 存在問題

基於多模態影象生成模型 Disco Diffusion(DD)進行 AI 創作目前存在以下幾個問題:

(1)生成影象質量參差不齊:根據生成任務的難易程度,粗略估算描述內容較難的生成任務良品率 20%~30%,描述內容較容易的生成任務良品率 60%~70%,大多數任務良品率在 30~40% 之間。

(2)生成速度較慢+記憶體消耗較大:以迭代 250 steps 生成一張 1280*768 影象為例,需要大約花費 6分鐘,以及使用 V100 16G 視訊記憶體。

(3)嚴重依賴專家經驗:選取一組合適的描述詞需要經過大量文字內容試錯及權重設定、畫家畫風及藝術社群的瞭解以及文字修飾詞的選取等;調整引數需要對 DD 包含的 CLIP 引導次數/飽和度/對比度/噪點/切割次數/內外切/梯度大小/對稱/... 等概念深刻了解,同時要有一定的美術功底。眾多的引數也意味著需要較強的專家經驗才能獲得一張還不錯的生成影象。

技能儲備

針對上述問題,我們做了一些資料與技術儲備,同時 YY 了一些未來可能的應用。如下圖所示:



  • 針對第一個問題,我們從藝術創作社群爬取了近 2w 張 AI 生成的藝術作品,從生成影象的基礎屬性以及內容合理性進行三分類打標:質量好/質量一般/質量差,訓練一個藝術作品質量評估模型。該模型能自動評估 AI 生成影象的質量並挑選出良品率高的影象,解決手動挑選高質量影象效率低的問題。

  • 針對第二個問題,我們通過減少迭代次數+生成小尺寸影象,然後利用超解析度演算法 ESRGAN 進行高解析度影象重建的方式,來提高 DD 的生成效率。該方法能達到與 DD 正常迭代生成的影象效果,生成效率與視訊記憶體優化至少提升了一倍。

  • 針對第三個問題,我們沉澱了一套底圖預處理邏輯,包括色溫色調調整/前背景調色/新增噪點等,能快速應用不同底圖生成任務;同時,我們也積累了海量的文字提示詞,進行了大量的 DD 調參試錯,依賴專家經驗生成個性化、多樣化的高質量影象。

 利用這些資料與技術儲備,我們已經積累了手機/電腦桌布、藝術姓/名、地標城市風格化、數字藏品等多模態影象生成應用方式。下面我們將展示具體的 AI 生成藝術作品。

AI 藝術作品

城市地標建築風格化

  • 通過輸入文字描述與地標城市底圖,生成不同風格的畫作(動漫風格 / 賽博朋克風格 / 畫素畫風格):

(1) A building with anime style, by makoto shinkai and beeple, Trending on artstation.

(2) A building with cyberpunk style, by Gregory Grewdson, Trending on artstation.

(3) A building with pixel style, by Stefan Bogdanovi, Trending on artstation.

  數字藏品

通過輸入文字描述與底圖,在底圖上進行創作。

  • 螞蟻 Logo 系列(螞蟻森林 / 螞蟻小屋 / 螞蟻飛船):

(1) A landscape with vegetation and lake, by RAHDS and beeple, Trending on artstation.

(2) Enchanted cottage on the edge of a cliff foreboding ominous fantasy landscape, by RAHDS and beeple, Trending on artstation.

(3) A spacecraft by RAHDS and beeple, Trending on artstation.

  • 螞蟻小雞系列(小雞之變形金剛 / 小雞之海綿寶寶):

(1) Transformers with machine armor, by Alex Milne, Trending on artstation.

(2) Spongebob by RAHDS and beeple, Trending on artstation.

手機/電腦桌布

  • 通過輸入文字描述,生成手機桌布:

(1) The esoteric dreamscape by Dan Luvisi, trending on Artstation, matte painting vast landscape.

(2) Scattered terraces, winter, snow, by Makoto Shinka, trending on Artstation, 4k wallpaper.

(3) A beautiful cloudpunk painting of Atlantis arising from the abyss heralded by steampunk whales by Pixar rococo style, Artstation, volumetric lighting.



(4~8) A scenic view of the planets rotating through chantilly cream by Ernst Haeckel and Pixar trending on Artstation, 4k wallpaper.



  • 通過輸入文字描述,生成電腦桌布:

(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.

(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.

(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.

(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.  

AI 藝術姓

  • 通過輸入文字描述與姓氏底圖,生成不同風格的藝術姓:

(1) Large-scale military factories, mech testing machines, Semi-finished mechs, engineering vehicles, automation management, indicators, future, sci-fi, light effect, high-definition picture.

(2) A beautiful painting of mashroom, tree, artstation, Artstation, 4k hd wallpaper.

(3) A beautiful painting of sunflowers, fog, unreal engine, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Artstation, Andreas Rocha, Greg Rutkowski.

(4) A beautiful painting of the pavilion on the water presents a reflection, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(5) A beautiful landscape of a lush jungle with exotic plants and trees, by John Howe, Albert Bierstadt, Alena Aenami, and dan mumford concept art wallpaper 4k, trending on artstation, concept art, cinematic, unreal engine, trending on behance.

(6) Contra Force, Red fortress, spacecraft, by Ernst Haeckel and Pixar, wallpaper hd 4k, trending on artstation.

其他 AI 藝術創作應用

Stable Diffusion [10, 12] 展現了比 Disco Diffusion [11] 更加高效且穩定的創作能力,尤其是在“物”的刻畫上更加突出。下圖是筆者利用 Stable Diffusion,根據文字創作的 AI 繪畫作品:





總結展望

本文主要介紹了近兩年來多模態影象生成技術及相關的進展工作,並嘗試使用多模態影象生成進行多種 AI 藝術創作。接下來,我們還將探索多模態影象生成技術在消費級 CPU 上執行的可能性,以及結合業務為 AI 智慧創作賦能,並嘗試更多如電影、動漫主題封面,遊戲,元宇宙內容創作等更多相關應用。

 使用多模態影象生成技術進行藝術創作只是 AI 自主生產內容(AIGC,AI generated content)的一種應用方式。得益於當前海量資料與預訓練大模型的發展,AIGC 能夠加速落地,為人類提供更多優質內容。或許,通用人工智慧又邁進了一小步?

 如果你對本文涉及到的技術或者應用感興趣,歡迎共創交流。

 參考文獻

[1] Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

[2] Ding M, Yang Z, Hong W, et al. Cogview: Mastering text-to-image generation via transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 19822-19835.

[3] Ding M, Zheng W, Hong W, et al. CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers[J]. arXiv preprint arXiv:2204.14217, 2022.

[4] Zhang H, Yin W, Fang Y, et al. ERNIE-ViLG: Unified generative pre-training for bidirectional vision-language generation[J]. arXiv preprint arXiv:2112.15283, 2021.

[5] Yu J, Xu Y, Koh J Y, et al. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation[J]. arXiv preprint arXiv:2206.10789, 2022.

[6] Wu C, Liang J, Hu X, et al. NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis[J]. arXiv preprint arXiv:2207.09814, 2022.

[7] Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with clip latents[J]. arXiv preprint arXiv:2204.06125, 2022.

[8] Nichol A, Dhariwal P, Ramesh A, et al. Glide: Towards photorealistic image generation and editing with text-guided diffusion models[J]. arXiv preprint arXiv:2112.10741, 2021.

[9] Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv:2205.11487, 2022.

[10] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

[11] Github: https://github.com/alembics/disco-diffusion 

[12] Github: https://github.com/CompVis/stable-diffusion 

推薦閱讀

1. 程式碼圈複雜度治理小結

2. 如何寫出有效的單元測試

3.   java應用提速(速度與激情)

大資料&AI實戰派 第1期

《大資料&AI實戰派》系列電子書由阿里雲開發者社群與阿里靈傑共同打造,覆蓋資料計算、資料分析、資料湖/湖倉一體、機器學習等多個領域,解讀各技術領域基礎原理,剖析行業實踐案例。電子書第1期以《阿里雲大資料知識圖譜》為核心,通過阿里雲大資料&AI產品能力介紹結合操作實踐,培養大資料開發者從“生產-採集-儲存-分析-開發-治理-價值體現”的技術能力。

點選閱讀原文檢視詳情。