聊一下AIGC

語言: CN / TW / HK

“UGC不存在了”——借鑑自《三體》

ChatGPT 的橫空出世將一個全新的概念推上風口——AIGC( AI Generated Content)。

GC即創作內容(Generated Content),和傳統的UGC、PGC,OGC不同的是,AIGC的創作主體由人變成了人工智慧。

xGC

  • PGC:Professionally Generated Content,專業生產內容
  • UGC:User Generated Content,使用者生產內容
  • OGC:Occupationally Generated Content,品牌生產內容。

AI 可以 Generate 哪些 Content?

作為淘寶內容線的開發,我們每天都在和內容打交道,那麼AI到底能生成什麼內容?

圍繞著不同形式的內容生產,AIGC大致分為以下幾個領域:

文字生成

基於NLP的文字內容生成根據使用場景可分為非互動式文字生成互動式文字生成

非互動式文字生成包括摘要/標題生成、文字風格遷移、文章生成、影象生成文字等。

互動式文字生成主要包括聊天機器人、文字互動遊戲等。

【代表性產品或模型】:JasperAI、copy.AI、ChatGPTBard、AI dungeon等。

影象生成

影象生成根據使用場可分為影象編輯修改影象自主生成

影象編輯修改可應用於影象超分、影象修復、人臉替換、影象去水印、影象背景去除等。

影象自主生成包括端到端的生成,如真實影象生成卡通影象、參照影象生成繪畫影象、真實影象生成素描影象、文字生成影象等。

【代表性產品或模型】:EditGAN,Deepfake,DALL-E、MidJourneyStable Diffusion文心一格等。

音訊生成

音訊生成技術較為成熟,在C端產品中也較為常見,如語音克隆,將人聲1替換為人聲2。還可應用於文字生成特定場景語音,如數字人播報、語音客服等。此外,可基於文字描述、圖片內容理解生成場景化音訊、樂曲等。

【代表性產品或模型】:DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。

視訊生成

視訊生成與影象生成在原理上相似,主要分為視訊編輯視訊自主生成

視訊編輯可應用於視訊超分(視訊畫質增強)、視訊修復(老電影上色、畫質修復)、視訊畫面剪輯(識別畫面內容,自動場景剪輯)

視訊自主生成可應用於影象生成視訊(給定參照影象,生成一段運動視訊)、文字生成視訊(給定一段描述性文字,生成內容相符視訊)

【代表性產品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen video等。

多模態生成

以上四種模態可以進行組合搭配,進行模態間轉換生成。如文字生成影象(AI繪畫、根據prompt提示語生成特定風格影象)、文字生成音訊(AI作曲、根據prompt提示語生成特定場景音訊)、文字生成視訊(AI視訊製作、根據一段描述性文字生成語義內容相符視訊片段)、影象生成文字(根據影象生成標題、根據影象生成故事)、影象生成視訊。

【代表性產品或模型】:DALL-E、MidJourney、Stable Diffusion等。

本文接下來將會著重講述文字類AIGC和影象類AIGC。

文字類AIGC

RNN → Transformer → GPT(ChatGPT)

最近勢頭正猛的ChatGPT就是文字類AIGC的代表。

ChatGPT(Chat Generative Pre-trained Transformer),即聊天生成型預訓練變換模型,Transformer指的是一種非常重要的演算法模型,稍後將會介紹。

其實現在的使用者對於聊天機器人已經很熟悉了,比如天貓精靈、小愛同學或是Siri等語音助手。那為什麼ChatGPT一出現,這些語音助手就顯得相形見絀呢?

本質上是NLP模型之間的差異。

在自然語義理解領域(NLP)中,RNN和Transformer是最常見的兩類模型。

迴圈神經網路(recurrent neural network)

RNN,即迴圈神經網路(recurrent neural network)源自於1982年由Saratha Sathasivam 提出的霍普菲爾德網路。下圖所示是一個RNN網路的簡易展示圖,左側是一個簡單的迴圈神經網路,它由輸入層、隱藏層和輸出層組成。

RNN 的主要特點在於 w 帶藍色箭頭的部分。輸入層為 x,隱藏層為 s,輸出層為 o。U 是輸入層到隱藏層的權重,V 是隱藏層到輸出層的權重。隱藏層的值 s 不僅取決於當前時刻的輸入 x,還取決於上一時刻的輸入。權重矩陣 w 就是隱藏層上一次的值作為這一次的輸入的權重。由此可見,這種網路的特點是,每一個時刻的輸入依賴於上一個時刻的輸出,難以並行化計算。

從人類視角理解RNN 人類可以根據語境或者上下文,推斷語義資訊。就比如,一個人說了:我喜歡旅遊,其中最喜歡的地方是三亞,以後有機會一定要去___,很顯然這裡應該填”三亞”。 但是機器要做到這一步就比較困難。RNN的本質是像人一樣擁有記憶的能力,因此,它的輸出就依賴於當前的輸入和記憶。

Transformer

而Transformer模型誕生於2017年,起源自《Attention Is All You Need》。這是一種基於Attention機制來加速深度學習演算法的模型,可以進行並行化計算,而且每個單詞在處理過程中注意到了其他單詞的影響,效果非常好。

Attention機制:又稱為注意力機制,顧名思義,是一種能讓模型對重要資訊重點關注並充分學習吸收的技術。通俗的講就是把注意力集中放在重要的點上,而忽略其他不重要的因素。 其中重要程度的判斷取決於應用場景,根據應用場景的不同,Attention分為空間注意力時間注意力,前者用於影象處理,後者用於自然語言處理。

Transformer是完全基於自注意力機制的一個深度學習模型,有關該模型的介紹,詳情可參考下面這篇文章👇

人工智慧 LLM 革命前夜:一文讀懂橫掃自然語言處理的 Transformer 模型

由於Transformer的存在加速了深度學習的效果,基於海量資料的進行樣本訓練便有了可能。至此,LLM正式從幕後走向臺前。

LLM,Large Language Model 即大型語言模型。這個大不僅僅指資料集的“大”,同樣也是指演算法模型的“大”。一般來說,在訓練資料足夠充足的情況下,往往是模型越大效果越好。在某種程度上說,甚至只要樣本足夠,哪怕模型“稍微簡單”一些,也是可以取得不錯的結果的。

筆者在2019年時曾翻譯過一篇文章👇

機器學習競賽實際上是一場資料競賽

這篇文章的主要觀點便是“AI競爭本質上就是資料之爭”,所有希望建立有影響力、有價值的AI應用都應該認識到以下三點:

  1. 差異化資料是這場AI遊戲成功的關鍵
  2. 有意義的資料比全面的資料好
  3. 起點應該是自己所擅長的東西

以ChatGPT為例,其本質是基於GPT3的一種變體,而GPT又是基於Transformer模型的一種演化。從模型引數上來說,GPT3共使用了1750億個引數訓練而成,而ChatGPT只使用了15億個引數,但其資料集是卻是整個網際網路和幾百萬本書大概3千億文字。哪怕是這樣,卻也是對一眾使用RNN的NLP程式造成了降維打擊。

GPT

這篇文章寫到一半的時候GPT-4釋出了,現在作為小插曲來擴充套件一下

筆者在和朋友的日常交流中發現大家總是將ChatGPT和GPT混為一談,其實這是兩個不同的東西。讓我們來問一下New Bing這兩者的區別。

很顯然,從Bing給我的回答看來,為了讓對話更加生動和有趣,ChatGPT是一個專為聊天設計的專業模型,而GPT則是一個通用語言模型。GPT4就是這個模型發展到第四代的模樣,相較於GPT3,GPT4可以做的事情變得更多了。

  • GPT-4 是一個更大的模型,網傳擁有約 1000 萬億個引數,這意味著它能夠處理更多的資料,學習更多的知識和技能。
  • GPT-4 能夠接受多模態的輸入,例如文字、影象、音訊和視訊,並生成相應的輸出。這使得它能夠處理更復雜和豐富的任務,例如影象描述、語音識別和視訊生成。

類ChatGPT

在國內一直都有一句調侃的話,叫做“國外一開源,國內就自主研發”。那既然演算法模型是公開的,程式碼也已經開源了,那在國內,那些類ChatGPT的模型是不是應該如“雨後春筍”般湧現了呢?

事實上並沒有,本質上還是因為LLM的擴充套件和維護是相當困難的。主要來源於以下幾點:

  1. 漫長的訓練時間
  2. 高昂的費用開支
  3. 海量的訓練資料
  4. 稀缺的高階人才

時代的眼淚

  • 2017 - Attention is all you need
  • 2023 - Money is all you need

以復旦大學開源的類ChatGPT應用MOSS為例,雖然不知道具體的模型引數數量,但其負責人表示相較於ChatGPT少了一個數量級,再加上簡中網際網路作為其訓練樣本,訓練質量可想而知。

點此體驗👉https://moss.fastnlp.top/

關於訓練的樣本資料,這裡舉一個小例子🌰。 同樣是搜尋程式碼段,ChatGPT給你推StackOverflow的答案,MOSS給你推csdn的答案,高下立判

本來還想補充一下百度的文心一言的,結果他們釋出了一個ChatPPT,網上一堆段子,這裡就不吐槽了。

影象類AIGC

說完了文字類AIGC,我們再來看看最近另一個比較火的領域——影象類AIGC。

俗話說,飽暖思淫慾。作為“第一生產力”的“性”,很多技術發展都離不開他。扎克伯克建立Facebook的起因就是為了更好的認識小姐姐。而影象類AIGC出圈的一個很大原因就在於,他生成的美女小姐姐越來越真實了。

作為一個業餘攝影師,第一眼也沒能正確分辨出下面這兩張圖誰是真人,誰是AI畫出來的人。

那麼問題來了:這些由AI生成出來的美女是如何生成的呢?

GAN → DiffusioModel → Stable Diffusion

生成對抗網路( Generative Adversarial Networks,GAN

2014年 Ian GoodFellow提出了生成對抗網路,成為早期最著名的生成模型。GAN使用零和博弈策略學習,在影象生成中應用廣泛。以GAN為基礎產生了多種變體,如DCGAN,StytleGAN,CycleGAN等。

零和博弈是指參與博弈的各方,在嚴格競爭下,一方的收益必然意味著另一方的損失,博弈各方的收益和損失相加總和永遠為“零” ,雙方不存在合作的可能。

一個簡單易懂的例子

有兩個人,都快要渴死了,現在他們面前只有一杯水,搶到水的那人得到的收益是1,沒搶到水的那個人會死掉,收益為-1,總收益為0。這就是零和博弈。

GAN包含兩個部分:

  • 生成器: 學習生成合理的資料。對於影象生成來說是給定一個向量,生成一張圖片。其生成的資料作為判別器的負樣本。
  • 判別器:判別輸入是生成資料還是真實資料。網路輸出越接近於0,生成資料可能性越大;反之,真實資料可能性越大。

如上圖,我們希望通過GAN生成一些手寫體來以假亂真。我們定義生成器與判別器:

  • 生成器:圖中藍色部分網路結構,其輸入為一組向量,可以表徵數字編號、字型、粗細、潦草程度等。在這裡使用特定分佈隨機生成。
  • 判別器:在訓練階段,利用真實資料與生成資料訓練二分類模型,輸出為0-1之間概率,越接近1,輸入為真實資料可能性越大。

生成器與判別器相互對立。在不斷迭代訓練中,雙方能力不斷加強,最終的理想結果是生成器生成的資料,判別器無法判別是真是假。(和周伯通的左右互搏很像)

以生成對抗網路為基礎產生的應用:影象超分、人臉替換、卡通頭像生成等。

擴散模型( Diffusion Model,里程碑式模型

擴散是受到非平衡熱力學的啟發,定義一個擴散步驟的馬爾科夫鏈,並逐漸向資料中新增噪聲,然後學習逆擴散過程,從噪聲中構建出所需的樣本。擴散模型的最初設計是用於去除影象中的噪聲。隨著降噪系統的訓練時間越來越長且越來越好,可以從純噪聲作為唯一輸入,生成逼真的圖片。

馬爾科夫鏈指的是一種隨機過程,它的特點是當前狀態只依賴於前一個狀態,而與其他歷史狀態無關。

一個馬爾科夫鏈的例子是股市模型,它有三種狀態:牛市、熊市和橫盤。 每種狀態之間有一定的轉移概率,例如從牛市到熊市的概率是0.4,從熊市到牛市的概率是0.2,等等。這樣就可以用一個轉移矩陣來描述這個馬爾科夫鏈。

一個標準的擴散模型分為兩個過程:前向過程與反向過程。在前向擴散階段,影象被逐漸引入的噪聲汙染,直到影象成為完全隨機噪聲。在反向過程中,利用一系列馬爾可夫鏈在每個時間步逐步去除預測噪聲,從而從高斯噪聲中恢復資料。

前向擴散過程,向原圖中逐步加入噪聲,直到影象成為完全隨機噪聲。

反向降噪過程,在每個時間步逐步去除噪聲,從而從高斯噪聲中恢復源資料。

擴散模型的工作原理是通過新增噪聲來破壞訓練資料,然後通過逆轉這個噪聲過程來學習恢復資料。換句話說,擴散模型可以從噪聲中生成連貫的影象。

擴散模型通過向影象新增噪聲進行訓練,然後模型學習如何去除噪聲。然後,該模型將此去噪過程應用於隨機種子以生成逼真的影象。

下圖為向原始影象中新增噪聲,使原始影象成為隨機噪聲。

下圖為從噪聲中恢復的原始影象的變種影象。

Stable Diffusion(Stability AI 文字生成影象,程式碼與模型開源

2022年8月,Stability AI釋出了Stable Diffusion ,這是一種開源Diffusion模型,程式碼與模型權重均向公眾開放。

通過prompt提示語“郊區街區一棟房子的照片,燈光明亮的超現實主義藝術,高度細緻8K”,生成影象如下,整體風格與內容鍥合度高,AI作畫質量較高。

線上體驗👉https://huggingface.co/spaces/stabilityai/stable-diffusion

仰望星空:AIGC與元宇宙

結論先行,我認為Web3.0就是元宇宙,AIGC為元宇宙提供養料。

第一代網際網路(Web1.0)是PC(個人計算機)網際網路,從1994年發展至今。Web1.0讓人類第一次掌握高效的傳輸資訊的手段,隨著各大網頁應用的普及,網際網路使用者被迅速的連線起來,從而提升了全球資訊的傳輸效率,各大入口網站從此處開始大放異彩。

第二代網際網路(Web2.0)是移動網際網路,從2008年左右拉開大幕,至今仍精彩紛呈。正是由於移動裝置具備“永遠線上”和“隨時隨地”的特點,“上網”二字逐漸從大眾的視野消失,因為每個人時時刻刻都生活在網路裡。

第三代網際網路(Web3.0)是網際網路的下一代技術發展方向,主要特徵是去中心化、安全、開放和自主。元宇宙是一種虛擬的、持續的、共享的和互動的數字世界,可以讓人們以不同的身份和形式參與其中。Web 3.0為元宇宙提供了技術基礎和可能性,而元宇宙則是Web3.0在應用場景和生活方式上的體現。

百度百科對於元宇宙的定義是👇

元宇宙(Metaverse) 是人類運用數字技術構建的,由現實世界對映或超越現實世界,可與現實世界互動的虛擬世界,具備新型社會體系的數字生活空間。

本質上,元宇宙是一種新型社會形態,在元宇宙中,更多工作和生活將被數字化。

更多的數字化,意味著需要更豐富的虛擬地圖、虛擬場景、虛擬物件和虛擬角色,這其中涉及到大量數字內容的生產和製作。以往,數字內容製作開發週期較長,通常以年計,在生產方式上,或來源於現實,通過掃描或重建模型實現材質、光影、動作捕捉等,或通過創作工具輔助藝術家實現。而這些剛好是AIGC所擅長的。AIGC廣泛的適用性可以為元宇宙提供全新內容生成解決方案。

🌰 腦洞一下 開放世界遊戲一直被大家視作元宇宙“數字世界”的雛形,試想一下,如果未來的3A大作,NPC的臉部模型、肢體動作是Diffusion Model生成的,聊天是ChatGPT和你對話,語音是Deep Voice創作的,你還會覺得他就只是一個普普通通的NPC嗎?抑或是,此時看文章的你,才是地球Online裡的一個NPC呢?

腳踏實地:AIGC的應用場景

元宇宙目前還只是大家的一個美好幻想,Web3.0究竟走向何方還需要大家共同探索,作為時代的先鋒,既要學會擡頭仰望星空,也不能忘記低頭看路。

如今,AIGC的浪潮已起,作為非演算法行業的從業者,底層的演算法實現並非我們關心的重點,如何發揮AI的作用,創造出實際的價值才是我們應該探討的方向。除了聊天機器人、畫畫這種不痛不癢的功能外,AIGC可能會顛覆的應用場景會有哪些呢?

人工智慧助理

AIGC+搜尋已經成為我現在獲取資訊的第一途徑了。目前,New Bing作為我的貼心小助手,不管是什麼想要了解的知識點,他都可以快速的給我解答,省去了我在海量資訊中篩選的過程。

輔助工作流

摘自Microsoft 365 Copilot官網

人類天生就有夢想、創造、創新的本能。我們每個人都渴望做一些有意義的工作——寫一部偉大的小說,做一個發現,建立一個強大的社群,照顧生病的人。我們都有與工作核心相連的衝動。但是今天,我們花了太多時間在那些消耗我們時間、創造力和精力的瑣碎任務上。為了重新連線到工作的靈魂,我們不僅需要一種更好地做同樣事情的方法。我們需要一種全新的工作方式。 —— 翻譯自 ChatGPT

GPT4釋出的第二天,Microsoft 365 Copilot變橫空出世,宣傳片相信大家都已經看到了,從此以後我們的工作方式將永遠改變,開啟新一輪的生產力大爆發。

除此之外,前段時間筆記軟體Notion也上線了自己的AI助手,可以幫助使用者更輕鬆、更快捷地完成日常任務。主要包括自動文字生成、內容推薦、智慧搜尋、情感分析等。

可以預見,AIGC的出現將會極大的改變現有的工作模式,未來,越來越多的效率軟體、辦公軟體將會推出其自己的AI解決方案。

🎺 插播一條行業動態 36氪獨家獲悉,釘釘已完成對協同辦公廠商「我來wolai」的全資收購。3月5日,我來wolai(上海我雲網絡科技有限公司)數位核心團隊成員已經退出公司股東名單。公司法人已變為釘釘總裁葉軍,公司則由阿里100%控股。36氪就上述訊息向釘釘求證,釘釘官方表示:我來wolai團隊已加入釘釘,將負責智慧化協作文件的研發,和個人版文件的產品設計。

文字生成器(對話、文案、程式碼……)

筆者最近一直沉迷“以xxx的口吻調教ChatGPT”,上圖便是在績效季到來之際用chatGPT給老闆們整的活,別的不說,效果還是蠻不錯的。自行跳轉👉 《老闆評語生成器》

ChatGPT最強大的便是其背後的龐大資料,基於此,你甚至可以讓那些不存在的人物、已故的人物出現。筆者最近剛看完電視劇《三體》,如果真的有一款“三體遊戲”,裡面的墨子、秦始皇等人物會不會就是ChatGPT生成的呢?

如果你也想調教出一個自己的對話機器人,可以試試這個網站👉https://open-gpt.app/

關於AIGC的落地,最後推薦兩個和我們飯碗有關的AIGC產品

Codeium

Github Copilot

AIGC在倫理問題上的攻與守

攻——利用AIGC生成有害內容

AIGC技術強大的創作能力也引發對技術作惡的擔憂。當要求類ChatGPT應用製造有害資訊時,它確實可以做到,輸出主要以文字和圖片為主。

  1. 網路詐騙話術教學者
  2. 人機互動意味著無限可能,ChatGPT 可能會遵守某種虛假設定下的邪惡指令。
  3. 黑產團伙可精細化訓練AIGC技術生成各類話術,用於網路詐騙、評論刷量等,不僅能夠主動發帖,還會對其他使用者的帖子做出響應,並展開長期的運營。
  4. 錯誤資訊超級傳播者
  5. ChatGPT的不可靠之處還在於,可能會加劇虛假訊息和錯誤訊息的傳播。ChatGPT不具有識別甄別能力,給出的答案很可能拼湊而來,看似合理,卻暗藏事實性錯誤。如果使用者沒有這方面的鑑別能力,就可能產生比較大的風險,特別是在一些政治文化、醫療健康、交通安全方面的話題,錯誤的回答可能引起嚴重後果。
  6. 色情暴力素材生成機
  7. 使用者利用AIGC生成虛假名人照片等違禁圖片,甚至會製作出暴力和性有關的畫作,LAION-5B資料庫包含色情、種族、惡意等內容,目前海外已經出現基於Stable Diffusion模型的色情圖片生成網站。

  1. AIGC對個人肖像權等權利的侵犯

finance.sina.com.cn

  1. AIGC對原創作品的版權侵犯

網易LOFTER風波警醒了誰?_風聞

守——如何應對AIGC的“暗黑”一面?

在可預見的未來,AIGC將會以井噴的態勢席捲各個行業,在享受AI賦能我們生產力的同時,也應該警惕AIGC帶來的危害。

《Nature》雜誌在《ChatGPT: five priorities for research》一文中提到,對AIGC的進一步研究需要關注的五個問題:

  1. 務必要對模型進行持續校對;
  2. 制定問責制與規則;
  3. 投資於真正開放的大語言模型;
  4. 擴大辯論範圍;
  5. 擁抱人工智慧的好處。

ChatGPT會設定多層道德底線,兼顧科學和倫理,約束“經濟人”行為,以保持“人盡其才、物盡其用”特性。未來,亦有可能出現“以子之矛,攻子之盾”的場景,用AI去識別/對抗AI。

也許未來會出現很多這樣的文章👇
《一種基於xxx的AI文字/影象檢測技術》

最後

對行業的思考

Meta AI 負責人、圖靈獎得主楊立昆Yann LeCun近日表示:就底層技術而言,ChatGPT 並沒有特別的創新。與其說 ChatGPT 是一個科學突破,不如說它是一個像樣的工程例項

AI人工智慧的底層三大件,資料,算力,演算法的發展給ChatGPT的出現提供了爆發的基礎,Open AI 將它組合的很好,不但是演算法而且還包括了算力,資料。

資料方面,網際網路的幾十年高速發展,積累了海量人類的文字。

算力方面,計算機技術的發展,從晶片的製程到類似Chiplet,等助力AI晶片蓬勃發展。

演算法,從神經元演算法起步,到Transformer 等各類演算法的爐火純青的應用。

所以AI底層三大件的發展,一定會催生出更多類似於ChatGPT的通用人工智慧應用,但我們更應該關注底層三大件的發展,未來資料類似於寶藏和礦產;晶片算力,成了決勝AI的大器,沒有晶片那麼資料礦產無法挖掘;演算法,猶如礦藏提純配方。

對於行業而言,未來做好AI三大件的工作,才能在AI時代贏得紅利。

對個人的啟發

說到最後,很多人變得焦慮,擔心自己會被取代,那麼從個人的角度出發,我們對於AIGC的態度究竟應該是什麼樣的呢?

馬克思說過,人和其他動物的最大區別是“使用工具製造工具”,而GPT是進入資訊時代以來,人類最偉大的工具之一。使用 GPT 能夠直接呼叫人類千年以來積累的知識與技能,對於我們普通人而言,自己身上沒有神蹟,也非天才,與其嘗試與機器、GPT和AI競爭,不如站在AI這個巨人的肩膀上,利用這些工具讓自己變得更強。

未來,能否使用AI將會成為衡量一個人能力的標準之一。就像當年智慧裝置普及時,那些不會使用智慧手機的人註定會被淘汰一樣。