網際網路新時代要來了(二)什麼是AIGC?

語言: CN / TW / HK

什麼是AIGC?

最近,又火了一個詞“AIGC”2022年被稱為是AIGC元年。那麼我們敬請期待,AIGC為我們迎接人工智慧的下一個時代。

TIPS:內容來自百度百科、知乎、騰訊、《AIGC白皮書》等網頁

@TOC

1.什麼是AIGC?

AIGC 即 AI Generated Content,利用人工智慧技術來生成內容,它被認為是繼PGC、UGC之後的新型內容創作方式。AI繪畫、AI寫作等都屬於AIGC的分支。2022年AIGC高速發展,這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業化的可能,成為AIGC發展的“加速度”。

AIGC已經代表了AI技術發展的新趨勢。過去傳統的人工智智慧偏向於分析能力,即通過分析一組資料,發現其中的規律和模式並用於其他多種分析已經存在的東西,實現了人工智慧從感知理解世界到生成創造世界的躍遷。

因此,從這個意義上來看,廣義的AIGC可以看作是像人類一樣具備生成創造能力的AI技術,即生成式AI,它可以基於訓練資料和生成演算法模型,自主生成創造新的文字、影象、音樂、視訊、3D互動內容(如虛擬化身、虛擬物品、虛擬環境)等各種形式的內容和資料,以及包括開啟科學新發現、創造新的價值和意義等。

因此,AIGC已經加速成為了AI 領域的新疆域,推動人工智慧迎來下一個時代。Gartner將生成性AI列為2022年5大影響力技術之一。MIT科技評論也將AI合成數據列為2022年十大突破性技術之一,甚至將生成性Al(GenerativeAl)稱為是AI 領域過去十年最具前景的進展。未來,兼具大模型和多模態模型的AIGC 模型有望成為新的技術平臺。

在這裡插入圖片描述 2023年1月10日,百度Create AI開發者大會上,百度創始人、董事長兼執行長李彥巨集表示:AI從理解內容,走向了自動生成內容,包括AIGC用於作畫、圖文、視訊等多型別的內容創作。

央視網人工智慧編輯部是中央廣播電視總檯旗下的智慧創新基地,佈局“雲、數、智”構建全媒體產品服務和傳播生態體系,充分發揮“內容為王+平臺致勝+技術領先”的核心競爭力推動媒體深度融合、助力各領域資料化轉型、加速產業智慧化升級。

在這裡插入圖片描述

2022 年12月,OpenAI 的大型語言生成模型ChatGPT刷爆網路,它能勝任刷高情商對話、生成程式碼、構思劇本和小說等多個場景,將人機對話推向新的高度,讓網友們不禁懷疑ChatGPT是否已經具有人類智慧。 全球各大科技企業都在積極擁抱AIGC,不斷推出相關的技術、平臺和應用。

在這裡插入圖片描述

2.AIGC發展趨勢

2.1 AI技術的融合發展,催生了AIGC的爆發

在這裡插入圖片描述 一是,基礎的生成演算法模型不斷突破創新。 2014年,伊恩.古德費洛(lanGoodfellow)提出的生成對抗網路(Generative Adversarial Network,GAN)成為早期最為著名的生成模型。GAN 使用合作的零和博弈框架來學習,被廣泛用於生成影象、視訊、語音和三維物體模型等。GAN 也產生了許多流行的架構或變種,如 DCGAN,StyleGAN,BigGAN,StackGAN,Pix2pix,Age-cGAN,CycleGAN、對抗自編碼器(AdversarialAutoencoders,AAE)、對抗推斷學習(Adversarially Learned Inference,AL)等。

隨後,Transformer、基於流的生成模型(Flow-based models)、擴散模型(Diffusion Model)等深度學習的生成演算法相繼湧現。 其中,Transformer 模型是一種採用自注意力機制的深度學習模型,這一機制可以按照輸入資料各部分重要性的不同而分配不同的權重,可以用在自然語言處理(NLP)、計算機視覺(CV)領域應用。

後來出現的 BERT、GPT-3、LaMDA等預訓練模型都是基於Transformer 模型建立的。而擴散模型(Diffusion Model)是受非平衡熱力學的啟發,定義一個擴散步驟的馬爾可夫鏈,逐漸向資料新增隨機噪聲,然後學習逆擴散過程,從噪聲中構建所需的資料樣本。

擴散模型最初設計用於去除影象中的噪聲。隨著降噪系統的訓練時間越來越長並且越來越好,它們最終可以從純噪聲作為唯一輸入生成逼真的圖片。

在這裡插入圖片描述

二是,預訓練模型引發了AIGC技術能力的質變。雖然過去各類生成模型層出不窮,但是使用門檻高、訓練成本高、內容生成簡單和質量偏低,遠遠不能滿足真實內容消費場景中的靈活多變、高精度、高質量等需求。預訓練模型的出現引發了AIGC技術能力的質變,以上的諸多落地問題得到了解決。

三是,多模態技術推動了AIGC的內容多樣性,讓AIGC具有了更通用的能力。預訓練模型更具通用性,成為多才多藝、多面手的Al模型,主要得益於多模型技術(multimodal technology)的使用,即多模態表示影象、聲音、語言等融合的機器學習。

2021年,OpenAI團隊將跨模態深度學習模型CLIP(Contrastive Language-Image Pre-Training,以下簡稱“CLIP”)進行開源。CLIP模型能夠將文字和影象進行關聯,比如將文字“狗”和狗的影象進行關聯,並且關聯的特徵非常豐富。

因此,CLIP 模型具備兩個優勢:一方面同時進行自然語言理解和計算機視覺分析,實現影象和文字匹配。 另一方面為了有足夠多標記好的“文字-影象”進行訓練,CLIP模型廣泛利用網際網路上的圖片,這些圖片一般都帶有各種文字描述,成為CLIP天然的訓練樣本。據統計,CLIP模型蒐集了網路上超過40億個“文字-影象”訓練資料,這為後續AIGC尤其是輸入文字生成影象/視訊應用的落地奠定了基礎。

2.2 AIGC產業生態加速形成和發展,走向模型即服務(MaaS)的未來

目前,AIGC產業生態體系的雛形已經成型,呈現為上中下三層結構。

在這裡插入圖片描述

第一層,為上游基礎層,也就是由預訓練模型為基礎搭建的AIGC技術基礎設施層。由於預訓練模型的高成本和技術投入,因此具有較高的進入門檻。以2020年推出的GPT-3模型為例,Alchemy API 創始人EIliotTurner 推測訓練 GPT-3 的成本可能接近1200萬美元。因此,目前進入預訓練模型的主要機構為頭部科技企業、科研機構等。

第二層,為中間層,即垂直化、場景化、個性化的模型和應用工具。預訓練的大模型是基礎設直領域、功能場景的工業流水線式部署,同時兼具按需使用、高效經濟的優勢。隨著兼具大模型和多模態模型的AlGC模型加速成為新的技術平臺,模型即服務(Model-as-a-Service,MaaS)開始成為現實,預計將對商業領域產生巨大影響。Stable Diffusion開源之後,有很多基於開源模型的二次開發,訓練特定風格的垂直領域模型開始流行,比如著名的二次元畫風生成的Novel-AI,還有各種風格的角色生成器等。

第三層,為應用層,即面向C端使用者的文字、圖片、音視訊等內容生成服務。在應用層,側重滿足使用者的需求,將AlGC模型和使用者的需求無縫銜接起來實現產業落地。以Stable Diffusion開源為例,它開放的不僅僅是程式,還有其已經訓練好的模型,後繼創業者能更好的藉助這一開源工具,以C端消費級顯示卡的算力門檻,挖掘出更豐富的內容生態,為AIGC在更廣泛的C端使用者中的普及起到至關重要的作用。現在貼近C端使用者的工具越發豐富多樣,包括網頁、本地安裝的程式、移動端小程式、群聊機器人等,甚至還有利用AIGC工具定製代出圖的內容消費服務。

未來市場:

隨著標註資料累積、技術架構完善、內容行業對豐富度/事實性/個性化的要求越來越高,AIGC行業即將被推向前臺。

在未來2-3年間,AIGC的初創公司和商業落地案例將持續增加。目前由人工智慧生成的資料佔所有資料的1%不到,根據Gartner預測,到2025年,人工智慧生成資料佔比將達到10%。根據《Generative AI:A Creative New World》的分析,AIGC有潛力產生數萬億美元的經濟價值。

我國的AIGC行業尚未發展成型,目前,AIGC代表公司較少,且上游還有眾多欠缺。

國內的AIGC場景開發較少:在我國,由於技術發展不足以及投資環境的影響,AIGC大多被作為公司的部分業務、乃至相對邊緣化的功能進行研發開發,獨立執行的初創公司數量明顯少於國外,大部分細分賽道的初創玩家在5家以下,這也間接導致了國內的AIGC場景開發較少。

AIGC應用場景深度不足:國內佈局最多的賽道是寫作和語音合成領域,虛擬人賽道剛剛開始興起基本均停留在內容領域。而在國外延展領域得到了更為充分的挖掘,例如個性化文字生成、合成數據等賽道均是重點佈局領域。此類業務拓展的綜合性要求較高,需要客戶方的數字化程度以及對對應行業的充分了解。

AIGC 將是 Web3 時代的生產力工具。

3.AIGC技術

AIGC 技術主要涉及兩個方面:自然語言處理 NLP 和 AIGC 生成演算法。

3.1自然語言處理技術 NLP

自然語言處理是實現人與計算機之間如何通過自然語言進行互動的手段。融合了語言學、計算機學、數學,使得計算機可以理解自然語言,提取資訊並自動翻譯、分析和處理。

自然語言處理技術可以分為兩個核心任務: 自然語言理解NLU:希望計算機能夠和人一樣,具備正常人的語言理解能力。過去, 計算機只能處理結構化的資料,NLU使得計算機能夠識別和提取語言中的意圖來實 現對於自然語言的理解。由於自然語言的多樣性、歧義性、知識依賴性和上下文, 計算機在理解上有很多難點,所以NLU至今還遠不如人類的表現。 自然語言理解跟整個人工智慧的發展歷史類似,一共經歷了3次迭代:基於規則的 方法、基於統計的方法和基於深度學習的方法。

在這裡插入圖片描述 自然語言生成NLG:將非語言格式的資料轉換成人類可以理解的語言格式,如文章、 報告等。NLG的發展經歷了三個階段,從早期的簡單的資料合併到模板驅動模式再 到現在的高階NLG,使得計算機能夠像人類一樣理解意圖,考慮上下文,並將結果 呈現在使用者可以輕鬆閱讀和理解的敘述中。自然語言生成可以分為以下六個步驟:

內容確定、文字結構、句子聚合、語法化、參考表示式生成和語言實現。

在這裡插入圖片描述

NLP主要被應用在四個方面:

情感分析:網際網路上存在大量的資訊,表達的內容都是多種多樣的,但抒發的感情 大致可以分為正面和負面的,可以被用來快速瞭解使用者的輿情情況。

聊天機器人:近年來,智慧家居的發展和普及使得聊天機器人的價值擴大。

語音識別:微信中可以通過語音進行輸入或直接將語音轉化為文字,汽車導航可以 直接說目的地,大大提升了便利性。

機器翻譯:機器翻譯的準確率在近年大幅提高,youtube 和 netflix甚至可以做到視 頻機器翻譯.

商業上,NLP主要被應用在一下領域:

用於處理財務、醫療保健、零售、政府和其他部門手寫或機器建立檔案文書處理工作,如:名稱實體辨識(NER)、分類、摘要和關聯擷取。這能將擷取、識別和分析文件資訊的流程自動化。 語意搜尋和資訊擷取和知識圖表建立跨零售、財務、旅遊和其他產業客戶的互動AI系統等。

神經網路,尤其是迴圈神經網路(RNN)是當前 NLP 的主要方法的核心。其中,2017 年由Google 開發的 Transformer 模型現已逐步取代長短期記憶(LSTM)等 RNN 模型成為了NLP 問題的首選模型。Transformer 的並行化優勢允許其在更大的資料集上進行訓練。這也促成了 BERT、GPT 等預訓練模型的發展。這些系統使用了維基百科、Common Crawl等大型語料庫進行訓練,並可以針對特定任務進行微調。

Transformer 模型是一種採用自注意力機制的深度學習模型,這一機制可以按輸入資料各部分重要性的不同而分配不同的權重。除了 NLP 以外,也被用於計算機視覺領域。與迴圈神經網路(RNN)一樣,Transformer 模型旨在處理自然語言等順序輸入資料,可應用於翻譯、文字摘要等任務。而與 RNN 不同的是,Transformer 模型能夠一次性處理所有輸入資料。注意力機制可以為輸入序列中的任意位置提供上下文。如果輸入資料是自然語言,則 Transformer 不必像 RNN 一樣一次只處理一個單詞,這種架構允許更多的平行計算,並以此減少訓練時間。

在這裡插入圖片描述

3.2 AIGC生成模型

近年來,AIGC 的快速發展歸功於生成演算法領域的技術積累,其中包含了:生成對抗網路(GAN)、變微分自動編碼器(VAE)、標準化流模型(NFs)、自迴歸模型(AR)、能量模型和擴散模型(Diffusion Model)。可以看到,大模型、大資料、大算力是未來的發展趨勢。

生成對抗網路 GAN(Generative Adversarial Networks)

2014 年,Ian J.Goodfellow 提出了 GAN,是一種深度神經網路架構,由一個生成網路和一個判別網路組成。生成網路產生“假”資料,並試圖欺騙判別網路;判別網路對生成資料進行真偽鑑別,試圖正確識別所有“假”資料。在訓練迭代的過程中,兩個網路持續地進化和對抗,直到達到平衡狀態,判別網路無法再識別“假”資料,訓練結束。

擴散模型 Diffusion Model

擴散模型是一種新型的生成模型,可生成各種高解析度影象。在 OpenAI,Nvidia和 Google 設法訓練大模型之後,它們已經引起了很多關注。基於擴散模型的示例架構包括 GLIDE,DALLE-2,Imagen 和完全開源的穩定擴散。擴散模型已經擁有了成為下一代影象生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文字描述生成影象,讓計算機也擁有了人的創造力。

除了上述提到的自然語言處理技術和 AIGC 生成演算法模型以外,超級計算機和算力這些硬體作為基礎設施也是不可或缺的。在機器學習的過程中,需要通過大量的訓練來實現更準確的結果,這樣的計算量普通的電腦是無法完成的,目前主要由英偉達 A100 構建的計算叢集完成,而國內外的初創企業也會通過雲實現。

4.AIGC有哪些應用價值?

AIGC將有望成為數字內容創新發展的新引擎。

1)AIGC能夠以優於人類的製造能力和知識水平承擔資訊挖掘、素材呼叫、復刻編輯等基礎性機械勞動,從技術層面實現以低邊際成本、高效率的方式滿足海量個性化需求。

2)AIGC能夠通過支援數字內容與其他產業的多維互動、融合滲透從而孕育新業態新模式。

3)助力“元宇宙”發展。通過AIGC加速復刻物理世界、進行無限內容創作,從而實現自發有機生長。

在這裡插入圖片描述

應用場景:

1)AIGC+傳媒:寫稿機器人、採訪助手、視訊字幕生成、語音播報、視訊錦集、人工智慧合成主播。

2)AIGC+電商:商品3D模型、虛擬主播、虛擬貨場。

3)AIGC+影視:AI劇本創作、AI合成人臉和聲音、AI創作角色和場景、AI自動生成影視預告片。

4)AIGC+娛樂:AI換臉應用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視訊動畫。

5)AIGC+教育:AI合成虛擬教師、AI根據課本製作歷史人物形象、AI將2D課本轉換為3D。

6)AIGC+金融:通過AIGC實現金融資訊、產品介紹視訊內容的自動化生產,通過AIGC塑造虛擬數字人客服。

7)AIGC+醫療;AIGC為失聲者合成語言音訊、為殘疾人合成肢體投影、為心理疾病患者合成醫護陪伴。

8)AIGC+工業:通過AIGC完成工程設計中重複的低層次任務,通過AIGC生成衍生設計,為工程師提供靈感。

5.AIGC給我們帶來的改變

1)瀾舟科技開發的孟子模型已在營銷文案生成、文學輔助創作、研報生成、論文助寫、數字人臉生成、新聞報道撰寫、智慧客服等領域落地。 利用孟子模型,僅需幾秒就能生成一篇營銷文案,成本約2元,而完全由人工撰寫約需60元。周明說,孟子模型所學知識遠超個體,“寫出”的文案在多樣性和新穎性方面更具優勢。“整體來看,利用AI輔助創作,提高內容生產效率、降低成本,已是大勢所趨。”

2)自然語言處理、語音識別、計算機視覺等任務的效能均顯著提升。這些技術的變革使AI越來越“聰明”和“善解人意”,通過大量訓練,在很多專業領域可表現出超過人類的創作能力,同時還能與人類順暢交流。

標準化、制式化的創作和職業將被更多替代,而具有獨立思考、具備豐富創意的內容及工作,重要性將更加凸顯。

3)AIGC應用將提升生產效率,加速內容生產和產品研發程序;改變資訊獲取來源,優化使用者搜尋體驗;也會降低網際網路內容的生產門檻。

AIGC有助於拓展藝術創作的想象力。創作者受自身習慣、風格與偏好影響,其想象力易拘泥於某一子空間;而人工智慧沒有桎梏與約束,能更好地激發藝術創造力。

在這裡插入圖片描述

6.AIGC面臨的挑戰

AIGC在引發全球關注的同時,智慧財產權、技術倫理將面臨諸多挑戰和風險。同時AIGC距離通用人工智慧還有較大的差距。

1)智慧財產權爭議。AIGC的飛速發展和商業化應用,除了對創作者造成衝擊外,也對大量依靠版權為主要營收的企業帶來衝擊。

2)關鍵技術難點。AIGC距離通用人工智慧還有較大差距,當前熱門的AIGC系統雖然能夠快速生成影象,但是這些系統未必能夠真正理解繪畫的含義,從而能夠根據這些含義進行推理並決策。

3)創作倫理問題。部分開源的AIGC專案對生成的影象監管程度較低,資料集系統利用私人使用者照片進行AI訓練,侵權人像圖片進行訓練的現象屢禁不止。一些使用者利用AIGC生成虛假名人照片等違禁圖片,甚至會製作出暴力和性有關的畫作。由於AI本身尚不具備價值判斷能力,一些平臺已經開始進行倫理方面的限制和干預,但相關法律法規仍處於真空階段。

4)環境挑戰。基於預訓練模型的AIGC不僅是訓練還是執行,都需要大量算力支援,無形中增加了能源消耗,其高速發展給環境保護和氣候變化帶來了巨大挑戰,產生高碳排放。

5)安全挑戰。安全問題始終是AI技術發展和應用中不可迴避的。同樣的,在AIGC方面也存在內容安全、技術濫用、使用者隱私和身份、AI內生安全等多個方面的安全挑戰。

一是內容本身。一直以來,網際網路資訊空間都面臨著虛假資訊和資訊內容安全的挑戰,國內外網際網路內容平臺,如Facebook、Twitter、微信、微博等都不斷在提升其虛假內容和資訊保安的治理能力。但隨著AIGC內容的持續增長,虛假資訊和資訊內容安全的挑戰也會增加。

二是,對AIGC的惡意使用或濫用,引發的深度合成詐騙、色情、誹謗、假冒身份等新型違法犯罪行為。不法分子利用開源的AIGC模型或工具,可以以更低的門檻、更高的效率來製作出音視訊、圖片和文字等種類豐富的、真偽辨別難度大的虛假資訊,同時也更容易地盜用使用者身份,以此開展新型詐騙等非法活動。 三是,使用者隱私和身份安全。AIGC模型訓練的資料中基本上來源於網際網路,其中可能包括個人隱私資料,並且預訓練模型強大的推理能力可能會導致個人隱私資料洩露的風險。此前,如下圖所示GPT-2就發生過隱私洩露的問題,可見個人隱私資料是被收錄在模型的訓練資料集之中。

在這裡插入圖片描述

四是,AIGC的內生安全挑戰。在MaaS的產業應用模式下,生成模型的內生安全問題,如遭受後門攻擊、資料中毒等,以及如何將被攻擊模型中的有毒資料去除。與此同時,使用者資料通常以明文形式提交給模型服務提供商,如何利用現有的加密技術保護使用者資料隱私也是一個重要的安全挑戰。

社會各界需要攜手應對AIGC領域的相關問題和挑戰,致力於打造綠色可持續、環境友好型的AI模型,實現智慧化與低碳化融合發展。

“未來已來,讓我們擁抱AIGC,擁抱人工智慧的下一個時代,打造更美好的未來。”

本文正在參加 ✍🏻 技術視角深入 ChatGPT 徵文活動