被稱為下一代風口的AIGC到底是什麼?

語言: CN / TW / HK

近期,短視訊平臺上“AI繪畫”的概念爆火,ChatGPT這一詞條也刷爆了科技圈,而這些概念同屬於一個領域——AIGC。2022年12月,Science雜誌釋出的2022年度科學十大突破中,AIGC入選。

那麼,被稱之為是AI下一代風口的AIGC到底是什麼?

AIGC的概念

AIGC全稱為AI-Generated Content,即利用人工智慧技術來自動生產內容。具體可基於生成對抗網路GAN、生成擴散模型和大型預訓練模型等人工智慧技術,通過已有資料尋找規律,並通過適當的泛化能力生成相關內容的技術。

AIGC已經成為繼PGC(Professional Generated Content,專業生產內容)和UGC(User Generated Content,使用者生產內容)之後新型的內容創作方式。

AIGC是繼PGC和UGC後又一內容創作方式

圖片來源:A16Z,中金公司

其實AIGC的概念並非今年才出現,在此前,類似於微軟小冰等人工智慧作詩、寫作、創作歌曲的產品就屬於AIGC的領域。但2022年以來,AIGC又集中爆發,國內外的科技巨頭公司和投資公司紛紛入局,其原因可能在於以下幾點:

  1. 文字-影象生成模型Stable Diffusion的正式開源,包括程式和訓練好的模型。這給了後繼創業者一些高起點的機會,有利於更廣泛的C端使用者普及。
  2. 深度學習算力、網際網路資料規模擴張以及生成擴散模型和多模態預訓練模型等技術的快速發展,使人工智慧技術也隨之迅速發展。從最初的文字生成逐漸發展為多模態和跨模態的內容生成。
  3. 如今各類社交和流媒體平臺的普及,也驅動著內容生產方式的演變。
  4. 外部環境因素影響。在經濟低迷時期,科技行業會選擇相應收斂開支,並將重點放在像是人工智慧商業化這類更務實的地方。

AIGC的發展歷程

事實上,使用計算機生成內容的想法自上個世紀五十年代就已經出現,早期的嘗試側重於通過讓計算機生成照片和音樂來模仿人類的創造力,生成的內容也無法達到高水平的真實感。結合人工智慧的演進改革,AIGC的發展可以大致分為以下三個階段:

早期萌芽階段(1950s-1990s) ,受限於科技水平,AIGC僅限於小範圍實驗。1957年,萊杰倫·希勒(Lejaren Hiller)和倫納德·艾薩克森(Leonard Isaacson)通過將計算機程式中的控制變數改為音符,完成了歷史上第一部由計算機創作的音樂作品——絃樂四重奏《依利亞克組曲(Illiac Suite)》。1966年,約瑟夫·韋岑鮑姆(Joseph Weizenbaum)和肯尼斯·科爾比(Kenneth Colbv)共同開發了世界上第一個機器人“伊莉莎(Eliza)”,其通過關鍵字掃描和重組來完成互動式任務。80年代中期,IBM基於隱馬爾可夫鏈模型創造了語音控制打字機“坦戈拉(Tangora)”,能夠處理兩萬個單詞。

世界上第一個機器人“伊莉莎(Eliza)”

沉積積累階段(1990s-2010s) ,AIGC從實驗性向實用性逐漸轉變。深度學習演算法、圖形處理單元(GPU)、張量處理器(TPU)和訓練資料規模等都取得了重大突破,受到演算法瓶頸的限制,效果有待提升。2007 年,紐約大學人工智慧研究員羅斯·古德溫(Ross Goodwin)裝配的人工智慧系統通過對公路旅行中的所見所聞進行記錄和感知,撰寫出世界上第一部完全由人工智慧創作的小說《1 The Road》。2012年,微軟公開展示了一個全自動同聲傳譯系統,通過深度神經網路(DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

世界上第一部完全由人工智慧創作的小說《1 The Road》

快速發展階段(2010s-至今) ,深度學習模型不斷迭代,AIGC取得突破性進展。尤其在2022年,演算法獲得井噴式發展,底層技術的突破也使得AIGC商業落地成為可能。下面列舉了一些迄今為止具有代表性的演算法模型,其中主要集中在AI繪畫領域:

  • 2014年6月,生成式對抗網路(Generative Adversarial Network,GAN)被提出。
  • 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模態預訓練模型。
  • 2022年,擴散模型Diffusion Model逐漸替代GAN。

上述三個演算法是當前AIGC的技術核心,下述演算法模型大部分都是以此為基礎。

  • 2018年12月,NVIDIA推出StyIeGAN ,可以自動生成高解析度圖片。目前已升級到第四代模型。
  • 2019年7月,DeepMind推出DVD-GAN ,可以生成連續視訊。
  • 2021年1月,OpenAI 推出DALL-E,是首個引起公眾廣泛關注的文字生成影象的模型之一。
  • 2022年2月,開源AI繪畫工具Disco Diffusion釋出。
  • 2022年3月,Meta推出Make-A-Scene這一AI影象生成工具。
  • 2022年4月,OpenAI 推出了DALL-E-2,在影象解析度、真實感和新功能上進行了升級。
  • 2022年4月,AI繪畫工具MidJourney釋出。
  • 2022年5月,Google推出Imagen,同樣是文字生成影象的模型。
  • 2022年6月,Google推出parti,與Imagen功能相同,但在模型演算法、模型引數和影象效果等方面做了升級。
  • 2022年7月,開源AI繪畫工具Stable Diffusion釋出。
  • 2022年9月,Meta推出Make-A-Video,可以從文字生成視訊。
  • 2022年10月,Google提出Imagen video,同樣是文字生成視訊的模型。
  • 2022年11月,Stable Diffusion 2.0釋出,在模型演算法、影象質量和內容過濾等方面做了升級。
  • 2022年11月,openAI推出 AI 聊天機器人chatGPT

關於上述演算法模型的具體原理和分析,可以期待我們的下一篇文章哦~

AIGC的應用場景

AIGC在面向不同物件和不同場景時,具有強大的自適應創作能力,因此被應用在了多種場景。具體包括:

【影象生成】

該領域目前發展勢頭最猛,且落地產品較多。根據使用場景,可分為影象編輯工具端到端影象生成。影象編輯包括影象屬性編輯(如去水印、風格遷移、影象修復等)和影象內容編輯(如修改面部特徵、換臉等)。端到端影象生成包括基於影象生成(如基於草圖生成完整影象,根據特定屬性生成影象等)和多模態轉換(如根據文字生成影象等)。

典型的產品或演算法模型包括EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。

【視訊生成】

視訊生成與影象生成在原理上有一定相似性,可分為視訊編輯(如畫質修復、視訊特效、視訊換臉等)、視訊自動剪輯和端到端視訊生成(如文字生成視訊等)。

典型的產品或演算法模型包括Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。

【文字生成】

基於NLP技術的文字生成可以算是AIGC中發展最早的一部分技術,功能也較為多樣。根據使用場景,可分為非互動式文字生成和互動式文字生成。非互動式文字生成包括內容續寫、摘要/標題生成、文字風格遷移、整段文字生成、影象生成文字描述等功能。互動式文字生成包括聊天機器人、文字互動遊戲等功能。

典型的產品或演算法模型包括JasperAI、Copy.ai、彩雲小夢、AI dungeon、ChatGPT等。

【音訊生成】

音訊生成中的部分技術已經較為成熟,被應用於多種C端產品中。音訊生成可分為TTS(Text-to-speech)場景和樂曲生成兩類。其中TTS包括語音客服、有聲讀物製作、智慧配音等功能。樂曲生成包括基於開頭旋律、圖片、文字描述、音樂型別、情緒型別等生成特定樂曲。

典型的產品或演算法模型包括DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

【遊戲生成】

遊戲生成主要包括遊戲元素生成和遊戲策略生成,其中游戲元素生成包括遊戲場景、遊戲劇情、NPC角色等元素的生成。遊戲策略生成主要指對戰策略,一般基於深度強化學習的技術。

典型的產品或演算法模型包括rct AI、超引數、騰訊AI Lab等。

【程式碼生成】

程式碼生成主要包括程式碼輔助的功能,包括程式碼補全、自動註釋、根據上下文生成程式碼、根據註釋生成程式碼等功能。

典型的產品或演算法模型包括Github Copilot、Replit、CodeGeeX、Mintlify等。

【3D生成】

與影象生成和視訊生成相比,目前3D內容生成還處於較為初級階段。現有的3D生成基本為基於影象或文字生成3D模型。

典型的產品或演算法模型包括Magic3D、DreamFusion、AVAR等。

當前AIGC market map

圖片來源:Leonis Capital  

IGC影象生成例項

AIGC影象生成能帶來許多有趣甚至實用的影象,比如以自動駕駛為例,corner case一直是令感知工程師頭疼的問題,缺乏corner case場景的資料集訓練出來的演算法,往往無法很好地應對corner case場景。

但是重建或挖掘corner case場景資料又是一件很困難的事情,不過現在通過AIGC的方式,我們能夠通過演算法生成corner case場景的影象,如下圖所示,展示的就是演算法生成的一系列白色大卡車側翻的影象,雖然生成的影象真實度還有進步空間,但是也給我們打開了新的一扇大門,大規模的生成用於AI演算法訓練的資料集。

整數智慧也將在後續的AIGC系列分享中,給大家分享如何在資料標註、模型訓練等領域充分使用這些能力。

輸入文字:一輛白色大卡車側翻在高速路中央題

輸入文字:三輛白色大卡車側翻在高速路中央題

輸入文字:十輛白色大卡車側翻在高速路中央

參考文獻

1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.

3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications[J]. arXiv preprint arXiv:2209.00796, 2022.

4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv: 2205. 11487, 2022.

6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

7. 中國信通院《AIGC白皮書》

8. 量子位《AIGC:AI生成內容產業展望報告》

9. 甲子光年《AIGC爆火的背後,錢都被誰賺走了》

10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》