被稱為下一代風口的AIGC到底是什麼?

語言: CN / TW / HK

近期,短視頻平台上“AI繪畫”的概念爆火,ChatGPT這一詞條也刷爆了科技圈,而這些概念同屬於一個領域——AIGC。2022年12月,Science雜誌發佈的2022年度科學十大突破中,AIGC入選。

那麼,被稱之為是AI下一代風口的AIGC到底是什麼?

AIGC的概念

AIGC全稱為AI-Generated Content,即利用人工智能技術來自動生產內容。具體可基於生成對抗網絡GAN、生成擴散模型和大型預訓練模型等人工智能技術,通過已有數據尋找規律,並通過適當的泛化能力生成相關內容的技術。

AIGC已經成為繼PGC(Professional Generated Content,專業生產內容)和UGC(User Generated Content,用户生產內容)之後新型的內容創作方式。

AIGC是繼PGC和UGC後又一內容創作方式

圖片來源:A16Z,中金公司

其實AIGC的概念並非今年才出現,在此前,類似於微軟小冰等人工智能作詩、寫作、創作歌曲的產品就屬於AIGC的領域。但2022年以來,AIGC又集中爆發,國內外的科技巨頭公司和投資公司紛紛入局,其原因可能在於以下幾點:

  1. 文本-圖像生成模型Stable Diffusion的正式開源,包括程序和訓練好的模型。這給了後繼創業者一些高起點的機會,有利於更廣泛的C端用户普及。
  2. 深度學習算力、互聯網數據規模擴張以及生成擴散模型和多模態預訓練模型等技術的快速發展,使人工智能技術也隨之迅速發展。從最初的文字生成逐漸發展為多模態和跨模態的內容生成。
  3. 如今各類社交和流媒體平台的普及,也驅動着內容生產方式的演變。
  4. 外部環境因素影響。在經濟低迷時期,科技行業會選擇相應收斂開支,並將重點放在像是人工智能商業化這類更務實的地方。

AIGC的發展歷程

事實上,使用計算機生成內容的想法自上個世紀五十年代就已經出現,早期的嘗試側重於通過讓計算機生成照片和音樂來模仿人類的創造力,生成的內容也無法達到高水平的真實感。結合人工智能的演進改革,AIGC的發展可以大致分為以下三個階段:

早期萌芽階段(1950s-1990s) ,受限於科技水平,AIGC僅限於小範圍實驗。1957年,萊杰倫·希勒(Lejaren Hiller)和倫納德·艾薩克森(Leonard Isaacson)通過將計算機程序中的控制變量改為音符,完成了歷史上第一部由計算機創作的音樂作品——絃樂四重奏《依利亞克組曲(Illiac Suite)》。1966年,約瑟夫·韋岑鮑姆(Joseph Weizenbaum)和肯尼斯·科爾比(Kenneth Colbv)共同開發了世界上第一個機器人“伊莉莎(Eliza)”,其通過關鍵字掃描和重組來完成交互式任務。80年代中期,IBM基於隱馬爾可夫鏈模型創造了語音控制打字機“坦戈拉(Tangora)”,能夠處理兩萬個單詞。

世界上第一個機器人“伊莉莎(Eliza)”

沉積積累階段(1990s-2010s) ,AIGC從實驗性向實用性逐漸轉變。深度學習算法、圖形處理單元(GPU)、張量處理器(TPU)和訓練數據規模等都取得了重大突破,受到算法瓶頸的限制,效果有待提升。2007 年,紐約大學人工智能研究員羅斯·古德温(Ross Goodwin)裝配的人工智能系統通過對公路旅行中的所見所聞進行記錄和感知,撰寫出世界上第一部完全由人工智能創作的小説《1 The Road》。2012年,微軟公開展示了一個全自動同聲傳譯系統,通過深度神經網絡(DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

世界上第一部完全由人工智能創作的小説《1 The Road》

快速發展階段(2010s-至今) ,深度學習模型不斷迭代,AIGC取得突破性進展。尤其在2022年,算法獲得井噴式發展,底層技術的突破也使得AIGC商業落地成為可能。下面列舉了一些迄今為止具有代表性的算法模型,其中主要集中在AI繪畫領域:

  • 2014年6月,生成式對抗網絡(Generative Adversarial Network,GAN)被提出。
  • 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模態預訓練模型。
  • 2022年,擴散模型Diffusion Model逐漸替代GAN。

上述三個算法是當前AIGC的技術核心,下述算法模型大部分都是以此為基礎。

  • 2018年12月,NVIDIA推出StyIeGAN ,可以自動生成高分辨率圖片。目前已升級到第四代模型。
  • 2019年7月,DeepMind推出DVD-GAN ,可以生成連續視頻。
  • 2021年1月,OpenAI 推出DALL-E,是首個引起公眾廣泛關注的文本生成圖像的模型之一。
  • 2022年2月,開源AI繪畫工具Disco Diffusion發佈。
  • 2022年3月,Meta推出Make-A-Scene這一AI圖像生成工具。
  • 2022年4月,OpenAI 推出了DALL-E-2,在圖像分辨率、真實感和新功能上進行了升級。
  • 2022年4月,AI繪畫工具MidJourney發佈。
  • 2022年5月,Google推出Imagen,同樣是文本生成圖像的模型。
  • 2022年6月,Google推出parti,與Imagen功能相同,但在模型算法、模型參數和圖像效果等方面做了升級。
  • 2022年7月,開源AI繪畫工具Stable Diffusion發佈。
  • 2022年9月,Meta推出Make-A-Video,可以從文字生成視頻。
  • 2022年10月,Google提出Imagen video,同樣是文字生成視頻的模型。
  • 2022年11月,Stable Diffusion 2.0發佈,在模型算法、圖像質量和內容過濾等方面做了升級。
  • 2022年11月,openAI推出 AI 聊天機器人chatGPT

關於上述算法模型的具體原理和分析,可以期待我們的下一篇文章哦~

AIGC的應用場景

AIGC在面向不同對象和不同場景時,具有強大的自適應創作能力,因此被應用在了多種場景。具體包括:

【圖像生成】

該領域目前發展勢頭最猛,且落地產品較多。根據使用場景,可分為圖像編輯工具端到端圖像生成。圖像編輯包括圖像屬性編輯(如去水印、風格遷移、圖像修復等)和圖像內容編輯(如修改面部特徵、換臉等)。端到端圖像生成包括基於圖像生成(如基於草圖生成完整圖像,根據特定屬性生成圖像等)和多模態轉換(如根據文字生成圖像等)。

典型的產品或算法模型包括EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。

【視頻生成】

視頻生成與圖像生成在原理上有一定相似性,可分為視頻編輯(如畫質修復、視頻特效、視頻換臉等)、視頻自動剪輯和端到端視頻生成(如文字生成視頻等)。

典型的產品或算法模型包括Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。

【文本生成】

基於NLP技術的文本生成可以算是AIGC中發展最早的一部分技術,功能也較為多樣。根據使用場景,可分為非交互式文本生成和交互式文本生成。非交互式文本生成包括內容續寫、摘要/標題生成、文本風格遷移、整段文本生成、圖像生成文字描述等功能。交互式文本生成包括聊天機器人、文本交互遊戲等功能。

典型的產品或算法模型包括JasperAI、Copy.ai、彩雲小夢、AI dungeon、ChatGPT等。

【音頻生成】

音頻生成中的部分技術已經較為成熟,被應用於多種C端產品中。音頻生成可分為TTS(Text-to-speech)場景和樂曲生成兩類。其中TTS包括語音客服、有聲讀物製作、智能配音等功能。樂曲生成包括基於開頭旋律、圖片、文字描述、音樂類型、情緒類型等生成特定樂曲。

典型的產品或算法模型包括DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

【遊戲生成】

遊戲生成主要包括遊戲元素生成和遊戲策略生成,其中游戲元素生成包括遊戲場景、遊戲劇情、NPC角色等元素的生成。遊戲策略生成主要指對戰策略,一般基於深度強化學習的技術。

典型的產品或算法模型包括rct AI、超參數、騰訊AI Lab等。

【代碼生成】

代碼生成主要包括代碼輔助的功能,包括代碼補全、自動註釋、根據上下文生成代碼、根據註釋生成代碼等功能。

典型的產品或算法模型包括Github Copilot、Replit、CodeGeeX、Mintlify等。

【3D生成】

與圖像生成和視頻生成相比,目前3D內容生成還處於較為初級階段。現有的3D生成基本為基於圖像或文本生成3D模型。

典型的產品或算法模型包括Magic3D、DreamFusion、AVAR等。

當前AIGC market map

圖片來源:Leonis Capital  

IGC圖像生成實例

AIGC圖像生成能帶來許多有趣甚至實用的圖像,比如以自動駕駛為例,corner case一直是令感知工程師頭疼的問題,缺乏corner case場景的數據集訓練出來的算法,往往無法很好地應對corner case場景。

但是重建或挖掘corner case場景數據又是一件很困難的事情,不過現在通過AIGC的方式,我們能夠通過算法生成corner case場景的圖像,如下圖所示,展示的就是算法生成的一系列白色大卡車側翻的圖像,雖然生成的圖像真實度還有進步空間,但是也給我們打開了新的一扇大門,大規模的生成用於AI算法訓練的數據集。

整數智能也將在後續的AIGC系列分享中,給大家分享如何在數據標註、模型訓練等領域充分使用這些能力。

輸入文本:一輛白色大卡車側翻在高速路中央題

輸入文本:三輛白色大卡車側翻在高速路中央題

輸入文本:十輛白色大卡車側翻在高速路中央

參考文獻

1. Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

2. Radford A, Kim J W, Hallacy C, et al. Learning transferable visual modelsfromnatural language supervision [C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.

3. Yang L, Zhang Z, Song Y, et al. Diffusion models: A comprehensive survey of methods and applications[J]. arXiv preprint arXiv:2209.00796, 2022.

4. Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021: 8821-8831.

5. Saharia C, Chan W, Saxena S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. arXiv preprint arXiv: 2205. 11487, 2022.

6. Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.

7. 中國信通院《AIGC白皮書》

8. 量子位《AIGC:AI生成內容產業展望報告》

9. 甲子光年《AIGC爆火的背後,錢都被誰賺走了》

10. Leonis Capital《Generative AI: State of the Market, Trends and Startup Opportunities》