Diffusion的火,只是AIGC的縮影
AIGC(AI生成內容),這個概念最近可以說是火得一塌糊塗。
例如 Stable Diffusion ,只要對它說一句話,“唰唰唰”地就能秒生成畫作:
Big chunky Venom(巨大敦實的毒液).
知名博主 大谷Spitzer 還用它“翻拍了”好萊塢國際巨星版的《華強買瓜》:
還有此前谷歌家的Imagen、OpenAI出的DALL·E系列等,也都成了備受網友們熱捧的AI內容生成神器。
甚至還有人拿著Midjourney生成的畫作參加藝術比賽,碾壓人類奪得頭籌,惹怒了一眾藝術家。
但正所謂“能用起來的技術才是好技術”,網友們將諸如此類AIGC技術熱度推至的高度是對它實力的認可。
而此前市場還將專案釋出僅一個月的Stable Diffusion背後公司估值為69億元,這是資本對AIGC的肯定。
那麼站在現在這個時間節點上,是時候對AIGC從技術發展路線、產業落地方向等多角度做一個梳理。
因此,量子位智庫在進行深入調研之後正式釋出 《AIGC/AI生成內容產業展望報告》 ,核心回答三大問題:
在技術上,AIGC已經可以完成哪些創作?
在價值上,AIGC除了直接生成藝術作品還能做什麼?
在未來,AIGC將如何改變內容及相關產業?
AIGC技術及八大場景應用
AIGC全稱為AI-Generated Content,指基於生成對抗網路GAN、大型預訓練模型等人工智慧技術,通過已有資料尋找規律,並通過適當的泛化能力生成相關內容的技術。
與之相類似的概念還包括Synthetic media,合成式媒體, 主要指基於AI生成的文字、影象、音訊等。
Gartner也提出了相似概念Generative AI,也即生成式AI。生成式AI是指該技術從現有資料中生成相似的原始資料。
相較於量子位智庫認為的AIGC,這一概念的範圍較狹窄。
我們認為,目前AIGC生成正在完成從簡單的降本增效(以生成金融/體育新聞為代表)向創造額外價值(以提供繪畫 創作素材為代表)轉移,跨模態/多模態內容成為關鍵的發展節點。
技術視角下,我們認為以下場景將成為未來發展的重點:文字-影象-視訊的跨模態生成、2D到3D生成、多模態理解 結合生成。
商業視角下,我們認為未來3年內,虛擬人生成和遊戲AI這兩種綜合性的AIGC場景將趨於商業化成熟。
下圖中的綠色部分,是我們認為2-3年內具有快速增長潛力的細分賽道。
文字生成
以結構性新聞撰寫、內容續寫、詩詞創作等細分功能為代表,基於NLP技術的文字生成可以算作是AIGC中發展最早的一部分技術,也已經在新聞報道、對話機器人等應用場景中大範圍商業落地。
從現有的落地場景來看,我們將其劃分為 應用型文字 和 創作型文字 生成,前者的進展明顯優於後者。此外,從應用推廣的角度來說,輔助文字創作是目前落地最為廣泛的場景。
應用型文字大多為結構化寫作,以客服類的聊天問答、新聞撰寫等為核心場景。主要玩家包括 Automated Insights (美聯社Wordsmith)、 Narrative Science 、 textengine.io 、 AX Semantics 、 Yseop 、 Arria 、 retresco 、 Viable 、 瀾舟科技 等。同時也是 小冰公司 、 騰訊 、 百度 等綜合性覆蓋AIGC領域公司的重點佈局領域。
創作型文字主要適用於劇情續寫、營銷文字等細分場景等,具有更高的文字開放度和自由度,需要一定的創意和個性化,對生成能力的技術要求更高。
代表性的國內外公司包括 Anyword 、 Phrasee 、 Persado 、 Pencil 、 Copy.ai 、 Friday.ai 、 Retresco 、 Writesonic 、 Conversion.ai 、 Snazzy AI 、 Rasa.io 、 LongShot.AI 、 彩雲小夢 等。
除去端到端進行文字創作外,輔助文字寫作其實是目前國內供給及落地最為廣泛的場景。基本主要為基於素材爬取的協助作用,例如定向採集資訊素材、文字素材預處理、自動聚類去重,並根據創作者的需求提供相關素材。
這部分的國內代表產品包括 寫作貓 、 Gilso寫作機器人 、 Get寫作 、 寫作狐 、 沃沃AI人工智慧寫作 。
影象生成
影象生成的傳統思路是生成對抗網路(GAN),由生成器和判別器兩部分組成,生成器將抓取資料、產生新的生成資料,並將其混入原始資料中送交判別器區分。
雖然說在現有的GAN在神經網路架構、損失函式設計、模型訓練穩定性、模型崩潰問題上取得了相應突破,提升了最終影象的特定細節、內在邏輯、生成速度等。
但要在實際應用中大規模穩定應用,GAN仍需解決以下問題:訓練不穩定、生成的樣本大量重複、結構及壓縮等問題。
2022年,Diffusion Model(擴散模型)成為影象生成領域的重要發現,甚至有超越GAN的勢頭。
相較於其他的影象生成模型(比如GAN、VAE和基於流的模型),在所需資料更少的背景下,Diffusion Model的影象生成效果有明顯提升。
而在3D內容生成上,神經輻射場模型NeRF成為新一代模型。
NeRF通過將場景表示為隱式的神經輻射場,渲染時通過神經網路查詢位置上的場景資訊生成新視角影象。簡單來說,NeRF利用深度學習完成了計算機圖形學中的3D渲染任務。
基於對不同技術原理的梳理,我們將影象生成領域的技術場景劃分為影象屬性編輯、影象區域性生成及更改、以及端到端的影象生成。
屬性編輯部分,可以直觀的將其理解為經AI降低門檻的PhotoShop。現有代表公司包括 美圖秀秀 (美圖AI開放平臺)、 Radius5 、 Photokit 、 Imglarger 、 Hotpot 、 Remove.bg 、 Skylum (Mask AI)、 Photodiva 。
影象部分編輯部分,指部分更改影象部分構成、修改面部特徵。典型代表為選入CVPR2022的InsetGAN,該模型由Adobe推出。
影象端到端生成主要指基於草圖生成完整影象、有機組合多張影象生成新影象、根據指定屬性生成目標影象等。
該部分包含兩類場景,分別為創意影象生成與功能性影象生成。前者大多以NPF等形式體現,後者則大多以營銷類海報/介面、logo、模特圖、使用者頭像為主。
垂直代表公司/產品包括 Deepdream Generator 、 Rosebud.ai 、 AI Gahaku 、 artbreeder 、 nightcafe 、 starryai 、 wombo 、 deepart 、 obvious 、 阿里鹿班 、 ZMO.ai 、 Datagrid 、 詩云科技 、 道子智慧繪畫系統 等。
音訊生成
此類技術可應用於流行歌曲、樂曲、有聲書的內容創作,以及視訊、遊戲、影視等領域的配樂創作,大大降低音樂版權的採購成本。
我們目前最為看好的場景是自動生成實時配樂、語音克隆以及心理安撫等功能性音樂的自動生成。
TTS(Text-to-speech)在AIGC領域下已相當成熟,廣泛應用於客服及硬體機器人、有聲讀物製作、語音播報等任務。
目前技術上的的關鍵,在於如何通過富文字資訊(如文字的深層情感、深層語義瞭解等)更好的表現其中的抑揚頓挫, 以及基於使用者較少的個性化資料得到整體的複製能力(如小樣本遷移學習)。
垂直代表公司包括 倒映有聲 、 科大訊飛 、 思必馳 (DUI)、 Readspeaker 、 DeepZen 和 Sonantic 。
隨著內容媒體的變遷,短視訊內容配音已成為重要場景。部分軟體能夠基於文件自動生成解說配音,上線有150+款包括不同方言和音色的AI智慧配音主播。代表公司有 剪映 、 九錘配音 、 加音 、 XAudioPro 等。
在TTS領域,語音克隆值得特別關注。該技術目前被應用於虛擬歌手演唱、自動配音等,在聲音IP化的基礎上,對於動畫、電影、以及虛擬人行業有重要意義。
代表公司包括 標貝科技 、 Modulate 、 overdub 、 replika 、 Replica Studios 、 Lovo 、 Voice mod 、 Resemble Ai 、 Respeecher 、 DeepZen 、 Sonantic 、 VoiceID 、 Descript 。
……
除此之外,因篇幅有限,更多AIGC落地細分場景可在文末獲取完整報告進一步瞭解。
不過總體而言,我們認為,不同賽道下AIGC應用落地推廣程度主要受到兩方面影響,特定技術的水平狀況以及在實際應用中出現的轉化門檻。
並且以下技術要素值得關注: 長文字生成 、 開放式文字生成 、 NeRF模型 、 Diffusion模型 、 跨模態大型預訓練模型 (支援的模態資料型別、模態對齊架構設計、支援的下游應用)、 小樣本學習及自監督演算法 、 強化學習 及 環境學習 。
技術場景方面,我們認為短期內將有較明顯爆發的包括 閒聊式文字生成 、 個性化營銷文字 、 富情感及細節TTS 、 拼湊式視訊生成 、 基於文字的AI繪畫 、 語音復刻 。
AIGC價值和產業發展分析
在量子位智庫看來,用AI進行內容創作的價值主要 來源於五點。
區別於市場觀點,我們認為最後一點,也即與AI系統的個性化、實時化互動最能體現其潛在價值。
儘管目前AIGC尚無法完成精準可控的生成,但我們相信這一賽道未來的技術與市場規模上限。
以下為五點主要價值,重要性逐次遞增。
降低內容創作門檻,增加UGC使用者群體
AIGC能夠代替人工完成聲音錄製、影象渲染等工作,使更多人員能夠參與到高價值的內容創作流程中。預計這一效果在2B結構化內容生成的領域非常明顯,個別場景會出現2C服務。跨模態生成成為未來重點。
提升創作及反饋效率,鋪墊線上實時互動
目前來看,效率提升主要體現在提升專業人員的生產效率。使用者對於能夠動態互動的個性化數字內容的需求越來越高,傳統的開發方式無法滿足日益上升的需求,消費速度遠高於製作速度。需要AIGC填補供需間的差距。
但我們認為,更為關鍵的是,AI同樣提升了內容的反饋生成速度,對於實時互動內容有重大意義,具有將線下和真人的快速互動遷移到線上的可能,也即令AI承擔真人的社交、創作、協作功能,可能會出現新的潛在場景(如社交類和探索類遊戲等)。
目前來看,內容消費者變得更容易將現實情感需求投射在虛擬世界中,預計會產生許多深入實時的互動需求,市場規模可觀。
基於海量資料得到強創造性和開放性,有助於激發創意認知、提升內容生產多樣性
相較於人類藝術家,AI能夠接觸借鑑更多的資料,在基於prompt進行內容生成後,AI創作的內容會有更多的二次創造空間和自由度。
例如,生成演算法能基於特定條件或完全隨機的生成現實中不存在的形狀、色彩搭配、圖案或結構等,賦予內容創作更多可能,產生“超現實感”及“未來感”,推動藝術創新。
對不同模態元素進行二次拆解組合,改變內容生產邏輯及形式
通過語音克隆、編曲風格提取等手段,AIGC能夠將原客體所對應的不同模態資訊進行拆解,例如演講者的面部形象、 聲音、演講內容等。
在重新組合之後,能夠完成過往受到條件限制無法完成的工作。例如路人的聲音+專業的播音邏輯、 更符合特定審美的面部等,打破真人/真實場景在要素組合上具有的侷限性。
和其他AI系統或資料庫進行聯動,有實現高度個性化/高頻優化
在與特定的資料庫(例如實時更新的客戶資料、市場反饋資料、特定主題下的歷史統計資料)或AI系統進行聯動後(如個性化推薦系統等),AIGC能夠在更為精準的未來預測/個性化預測基礎上調整其生成內容。
例如,根據使用者習慣調整內容營銷文字、根據所處渠道風格調整生成內容、參考歷史資料優化生成內容等。
產業鏈分析方面,由於我國的AIGC行業尚未發展成型,我們在此基於自身理解,繪製了產業鏈分佈圖。
目前,在上游,我國AIGC產業還有眾多欠缺,以資料標註為重點體現。
我們認為,未來業務關聯的大公司收購可能會成為主流現象,或應當存在較明顯的大廠擴充套件業務趨勢。但大廠的業務擴充套件動機往往在於通過新賣點快速 獲取流量,優化核心業務,並不會過度關注AIGC本身業務價值的充分挖掘。
因此,在明確的新場景出來之前,我們認為這個行業更容易分散在不同的內容消費場景下。
我們所分析的行業門檻及核心競爭力:
無論是內容還是延展領域,在產品上最終需要回到一體化解決方案服務能力
迴避大廠商後期的競爭壓力
與行業的深度繫結關係
構建業務閉環
最後是我們基於此次調研所得出的六大關鍵結論:
本文來自微信公眾號 “量子位”(ID:QbitAI) ,作者:量子位智庫,36氪經授權釋出。
- 造謠“黃豆醬中小便”者拘留十日,盤點那些年被謠言毀掉的快消企業
- 海外new things | 遠端僱傭平臺「Remofirst」融資1410萬美元,Mouro Capital及QED Investors領投
- 中美元宇宙基礎設施差距有多大?
- “無印良品”打敗“無印良品”
- 海外new things | 為輪椅設計智慧座墊的初創公司「Kalogon」種子輪融資330萬美元,能調節壓力促進血...
- 從“剁手買”到“動手做”,這屆年輕人熱衷親自搞家裝
- 中國新出海故事:人、疫情與紐帶
- 幾十家排隊申請產品上市,“顏”中新貴浮出水面
- 虧損5個億 海昌海洋公園為何還瘋狂購買IP?
- 資本持續湧入專精特新“小巨人”企業!60%“小巨人”集中在東部
- Itsme關停、網易入局,動態捕捉 社交的風到底往哪吹?
- 拉夫勞倫,被店員玩成了微商?
- 業主直接獎中介人員22萬和iPhone14!上海浦東一半中介可能都盯著這套房
- 專攻資料安全十七年,「明朝萬達」迎來千億市場爆發
- 手術機器人遇險,大洗牌在即?
- 我在越南做孵化器,今年一半客戶來自直播帶貨
- 火爆全網,抖音“卑微文學”讓數萬人做“舔狗”
- 窮廟富和尚,威馬鉅虧沈暉卻年薪超12億,是何小鵬933倍
- 攜程、復星旅文、錦江們的Q2:國內低迷,國外賺錢
- 心動這一年