智能視頻內容生產中專業視頻數據導出工具的研發

語言: CN / TW / HK

隨着智能視頻生產時代的到來,專業視頻的製作將會變得更智能、更簡單。智能視頻生產中主要包含三大模塊,他們分別是:視頻SDK底層能力、AI能力以及海量視頻預設導出能力。本次LiveVideoStackCon 2021北京站,杭州視杏科技有限公司CEO 李志強,向我們分享瞭如何研發智能視頻預設工具來輔助設計師智能導出預設內容以及一些成功的案例。

文 | 李志強

整理 | LiveVideoStack

大家好,我是來自杭州視杏科技有限公司的創始人&CEO——李志強(節子),視杏科技主要關注的是專業視頻數據的導出。為什麼要強調的是“專業”,這在我整個分享的過程中大家也會陸續地感覺到。

先來看一下我們今天分享的題目——智能視頻內容生產場景中專業視頻數據導出工具的研發。智能視頻內容生產場景的概念,大家可能都已經接觸過。我們嘗試解決設計師感性設計的一些問題,主要針對的是一些對視頻內容需求量比較大、頻次比較高且對製作效率要求比較高的場景,這需要利用技術智能地去實現內容的生產。在這種生產中之所以需要這一些數據的導出,是因為目前來講,我們的解決方案特別是針對專業視頻生產這個環節的方案,是不可能把設計師這個角色排除在外的,因為專業視頻生產本身還是要依靠專業設計師的感性設計能力,我們能做的就是把這些感性設計的能力數據化,變成我們的代碼,變成可以去重複利用的一些資產。今天我就和大家分享一下我們公司在牽扯到這一方面問題的時候,是如何做操作的。

1.進入視頻內容生產技術的現狀

圖片

1.1 應用場景

1.1.1 自動化廣告

圖片

首先我們瞭解一下現狀,這裏列舉了幾個應用場景。首先一個比較大的應用場景就是自動化的信息流廣告,這個需求場景的出現就像目前大家熱議的“內卷”,是基於這種狀態下產生的一個新的需求。

特別是在出海領域我們的一些客户在去投放廣告的時候,比如面對的客户可能是一些東南亞國家,每個國家有自己的語言,如果我們使用以前傳統的低頻次廣告投放,可能一週或者一個月更新一次廣告內容,那麼使用人工的手段去製作視頻廣告是沒有問題,但是現在當我們需要去提高用户對這些廣告的興趣度、關注度時,我們不得不去針對每個用户個人的用户畫像,為他們提供定製的視頻內容。在這個時候,自動化的視頻廣告內容生產便成為一種行業需求,這方面我們主要是與Facebook中國區廣告代理商達成合作。中國很多出海的APP、外貿行業從業人員需要通過代理商去做一些海外社羣的信息流推廣。我們主要幫助去解決這種智能信息流視頻廣告生產的問題。

1.1.2 模板化視頻製作網站APP

圖片

相信在座各位都比較熟悉一些模板化的視頻製作,這也是現在應用比較廣泛的一種偏專業的視頻內容生成的方式,也是我們很多移動端的產品中目前都具備的能力,同時也是為了讓我們這些非設計師的普通用户,能夠便捷地通過一次兩次的點擊的方式生成一個專業視頻所採取的一種手段。在這方面移動端的客户比較多,這裏暫時不一一列舉。

我們選擇的一種方案是希望融入專業設計師的設計能力。專業設計師的創意能力培養以及對一個工具熟練使用程度本身的成本高、週期長。為了對設計師友好,我們選擇直接兼容設計師目前熟悉的工具鏈AE去設計各種複雜的模板。

1.1.3 直播混剪

圖片

一些直播的混剪工作,我們主要和達摩院合作。因為像電商進行直播,他們一條直播素材可能就5、6個小時,而這些直播素材往往還需要進行二次加工,如果我把直播中一些高光片段拆出來後再進行二次剪輯,再去生成一些短視頻,再在其他的短視頻平台投放,那麼從這裏可以看出這個剪輯的工作就變成一個勞動密集型的工作,人工參與進去變得是ROI很低的一個事了,所以我們也在利用我們在視頻剪輯方面的能力去實現直播視頻的剪輯和包裝工作。

1.1.4 景區原生素材生產

圖片

景區為了豐富遊客的遊玩體驗,或者像一些新能源汽車根據車載攝像頭收集到的視頻素材製作出智能剪輯,他們其實都是同一類型的需求,讓我們的生活體驗開始升級,利用智能的技術為我們生活中一些原本需要手工操作的事情提供一種智能化的解決方案。

1.2 智能視頻技術生產難點

圖片

有了許多需求場景做鋪墊,我們現在遇到的問題有哪些呢?我們與大家分享一下。

第一個難點是AI能力,這是我們在進行智能生產的第一步。我們需要理解用户的素材,理解主要是對語義的理解、多模態的識別等技術手段去對用户的素材進行分析。這一方面工作,今天參加LVS的合作伙伴裏有一些做的已經非常棒了,我們主要關注的是後面兩個難點。

第二個難點是主題模板,它主要指的是一個比較完整的專業設計本身所包含的整個流程:從設計師這一側去設計形成創意把它變成一個可視化的作品,到最終把這個作品變成一個可編輯的模板投放給的C端用户。

第三個難點是視頻預設,它主要指的是一些在剪輯過程中獲取到的視頻模板並不完整,我們需要去把設計師的能力進行模塊化的拆解,再把這些模塊化的能力再提供給有一定創作能力的小白用户,使他們可以進行二次利用。

1.3 目前現狀

圖片

我們認為還存在着兩個比較大的問題,這裏和大家探討一下。

首先第一個問題是效果比較差,我們在討論一個效果或者一個模板本身所包含哪些效果,特別是從技術一側去討論這個問題時,比如現在比較流行的“靈魂出竅”,這些詞變成了一些行業術語了。但是從設計師的角度看,他們並不會去這樣去描述一個效果本身,因為他們會使用一個他熟悉的工具比如AE,而AE會把它拆解成圖層的動畫,在圖層本身再加上一些特效,或者圖層樣式,或者和其他圖層互動產生一些track matte等等,通過多種工具的組合形成各種各樣的效果,而不是侷限在某一種特定的效果如何實現。如果我們對設計師的工作流程或者他的能力支持的不到位,就會出現設計師的創意沒辦法施展開的問題。

不知道各位公司裏面有沒有遇到這種情況:某天你的設計師在和技術區人員討論時説大腦中有這麼一個效果的技術,而技術人員聽到設計師的需求就覺得這個想法比較難實現。其實在設計師的角度看,這個想法是非常簡單的,因為他已經熟練使用AE的工具集,他能很快的去製作出效果,但是針對這些效果如果技術側沒有對應的技術解決方案,往往就會變得非常棘手了。

第二個問題實際上是由第一個問題造成的,如果我們沒有給設計師一個稱手的工具,那麼設計師的設計能力、進行數據轉化就變得非常困難。在這個時候技術人員就被迫又參與其中:在設計師產生的一堆原始數據的基礎上,進行一些代碼的二次加工,把它形成一套SDK可以處理的模板。

我們的決心是把這兩個問題徹底解決。

2.智能視頻生產時代需要的預設導出工具

2.1 方案介紹

圖片

我們這邊給設計師的一個設計工具叫做VE Exporter,它是服務於設計師的一款工具,設計師能夠利用它去產生數據模板、設計模板,這個設計模板再配合我們的VE SDK,它可以形成各種功能化的體驗,比如模板視頻、相冊、動態模、攝像機模板、貼紙濾鏡等。而所有功能都來源於設計師的創意。

圖片

我是設計師出身,所以我對設計師能力在我們技術行業的應用的事情耿耿於懷。專業設計師本身的創意能力如果不能發揮出來,那麼技術人員能做的僅僅是一些蹩腳的臨摹工作而已,所以我們會非常在乎這個問題。這裏有一個視頻,我給大家展示一下。

當設計師在利用AE設計工具自由地創作好一個作品之後,可以啟動VE Exporter,VE Exporter可以一鍵載入它的效果,它可以設置一些默認的背景音樂。當我們從需求場景出發,我們可能還會遇到一個問題:我們把這個模板給用户之後,用户怎麼去進行修改呢?VE Exporter還提供了一些設計工具,可以把模板的編輯界面都設計好。設計完成後,比如在AE裏有100個素材,但其中有1-10個素材我們希望用户能夠修改,剩下的素材並不希望用户去觸碰,而這個時候這些素材的可編輯器以及它在界面的哪一個編輯組能夠呈現,都可以在這裏通過拖拽和擺放進行比較好的設計。最後就可以把它導出成一個模板包,然後放到SDK裏面去編輯使用。

圖片

我們現在具體做到了一個什麼程度了?簡單來説就是我們在兼容AE,但實際上我們要做的是全是苦功夫。因為AE本身不是一款開源軟件,它沒有技術規範,我們要做的工作就是倒推它每一個參數後面的算法是什麼, 然後我們自己再通過我們的方式把它實現,保證我們得到的結果是和AE完全一致的。為了這個工作,我們把以前從設計師時代的經驗積累到現在我們對圖形學的一些理解,進行了深入挖掘,最終得到了現在不錯的綜合體驗。

目前的我們對AE中除了燈光層以外幾乎所有圖層都進行了一個支持,比如視頻層、圖片層、序列幀、文字層、空層、調節層、固態層、攝像機層等都有一個完整的支持,像一些關鍵的動畫如圖層的動畫、攝像機動畫、mask形狀動畫、字符動畫、layer style動畫都有完整的支持。為什麼AE被大家所廣泛喜歡,其中有一個非常大的原因在於它有豐富的特效系統,為了讓設計師能夠比較自由地使用AE,我們也花了很多苦功夫去對AE裏面的特效進行二次研發。如果我們把現有的能力做成一個新的特效,其實並不複雜,但是如果要保證一個現有的黑核特效,把它完美地還原出來,這個工作就開始變得棘手了。

舉個例子,我們在去實現AE裏的3D圖層渲染的時候,從遊戲圖形學的角度去解讀這個工作與我們從設計師的角度去理解這個工作,它實際上是完全不同的兩個難度。再舉個例子,大家看一個礦泉水瓶,它本身是個3D物體且半透明,當你把這些礦泉水瓶從前到後疊成一條線,就會出現多個半透明的物體前後穿插的光線渲染的問題。這個問題在AE裏的一個表現就是半透明的3D物體互相穿插以及應用了各種圖層混合模式之後,如何得到一個正確的結果。這個問題通常在遊戲引擎裏面,大家的做法是根據一個物體具體攝像機的位置進行排序,把最遠的物體先渲染,最近的物體依次往後渲染,再使用混合模式。但這個工作在AE中行不通,因為AE裏的圖層順序是設計師決定的,我們不能去改它的順序,所以為了完成整個渲染任務,我們不得不去研究這種像這種亂序的3D透明的算法該如何實現。目前我覺得這個問題我們解決的不錯,大家如果感興趣也可以去下載一下VE Exporter結合AE體驗一下我們的效果。

圖片

AE本身的插件非常豐富,我們在兼容它的插件時,不能一步到位把所有的東西都兼容掉,我們的思路是這樣的:先去兼容那些使用量非常高,而且在模板上必要兼容的一些插件。當有一些特效並不需要用户去修改的時候,我們並不需要去實時渲染它,我們甚至可以提前把它渲染成一些素材來節省這個實時操作時候的一些計算量,像粒子插件、一些光效插件往往是這種類型的,那麼這種插件我們沒必要現在兼容。我們現在兼容的往往是那些需要應用在用户的素材上,沒辦法進行提前渲染的插件,比如説調色、變形、模糊,包括一些對背景的處理、轉場插件等。

圖片

除了對AE的插件進行介入以外,我們還研發了大量的AE插件。一方面,作為設計師可以直接下載安裝到自己的AE中,在日常的設計工作中正常的使用它;另一方面,用這些插件做的效果直接放到SDK也可以完美還原,SDK和AE的功能是同步的。

我們自己研發插件主要有兩個方向,第一個主要是AE有些現有的能力,但是如果按照現有AE的使用習慣使用可能導致渲染效率不高,我們在移動端去還原這個效果的時候,產品體驗就不好。所以我們往往會使用我們自己的一套算法,把這效果做一個加強來去優化整個渲染流程。

圖片

另外一個方向就是增加一些AE本身不具備的能力。舉個常見的例子,像我黨在開會的時候往往會有一些金光閃閃的大字,這種大字在我們模板製作中的應用是非常廣泛的,而這種效果在AE裏面去做非常難實現,而且渲染效率非常低。那麼針對這種特定的使用場景,我們往往會提供一些非常便捷、一鍵出效果的設計工具給到設計師,讓他在日常的模板設計中能夠做出非常不錯的效果。現在插件我們幾乎是每個月都會發兩款左右,而且都是免費的,大家都可以去下載使用。

圖片

這裏有一個視頻,大家看一下。像視頻裏的元素,基本上都是可以修改的,用户只用在鍵盤上輸入一個新的字,那在保證同樣效果的情況下,原來的文字的元素都會被替換掉。後面呢有一些我們的設計師用我們的插件做的一些效果,大家可以看一下。剛才的視頻是設計師用我們發佈的插件在他日常使用中做模板的一些效果的混剪。

2.2 方案優勢

圖片

剛剛給大家介紹的VE Exporter以及我們選用的這一套技術方案,我們覺得它本身具有三個比較大的優勢。

首先第一個優勢是VE Exporter從它底層的對AE的解析以及它對SDK的渲染本身都是我們從0開始研發去完成的,所以我們並不需要拘泥於任何現有的技術形態。

第二個是優勢是,我們非常注重設計師的體驗,VE Exporter的使用流程和AE的操作習慣都是完美吻合的,而且它可以直接被安裝到AE中,對設計師友好度非常高。

在座的應該接觸過一個技術方案,以前他叫做BodyMovin,但現在大家應該更多接觸他名字叫Lottie,這個方案之前是我認識的一個國外的開發者好友寫的一個主要是解決UI動畫的一個數據導出,把AE裏面的一些UI動畫導出成json格式,後來被Airbnb提供了一些渲染框架之後,中國很多廠商都會利用它來實現模板渲染的技術方案。本身它有很好的用户基數,主要原因是它是開源、免費。為了讓我們的客户包括我們的設計師能夠有大量的素材,我們的SDK也是直接兼容Lottie的這套方案的,也就是説現在市面上的所有的Lottie文件可以直接放到我們SDK,可以有完美的功能還原。

2.3 VE Leap

圖片

既然設計師對我們來説那麼重要,那我們一定要服務好他,除了從工具上服務好他,我們還提供了一個設計師的社區,叫做VE Leap,網址就是veleap.com。

它的功能主要有三個主要有三個。第一個是提供專業的設計工具,主要提供一些AE的插件、增效工具去幫助解決設計師在模板設計中遇到的所有的這個痛點問題。

第二個是提供專業的設計教程。

第三個是這個模板的交易,最開始從一些B端客户的需求發起。因為當這個設計工具本身足夠開放、靈活之後,它會立刻產生大量的素材需求,這個時候市面上的任何一個設計師都可以變成它的這個素材供給者。因為VE Exporter足夠好用,基本上一個新設計師三個小時就可以上手產生模板,所以會有很大量的模板交易的需求在我們平台上流轉。現在VE Exporter我們還沒有做一些推廣,目前的用户接近1萬名設計師左右。我們其中很多還在上學的設計專業的設計師,基本在平台上都每月能夠有上萬元的收入。

2.4 技術方案生態

圖片

那麼VE Exporter、VE Leap和SDK他們三者,SDK今天不是我所講的重點,但是它本身是一個不可或缺的角色。像我剛才提到的它主要解決的問題是給我們的模板提供一個跨平台產品化使用的一個解決方案;VE Exporter主要做的工作是對我們的設計進行數據化的導出;VE Leap是使用我們工具的設計師進行交流學習、創作變現的一個社區。這三者是互相促進、相互影響的一個關係。

2.5 C端用户解決方案

圖片

下面我簡單介紹一下我們現在針對C端用户一側提供的一些解決方案。

第一個方案是標準模板。這個比較容易理解,設計師把自己一個完整的作品作為一個模板投放出去給普通用户去使用。這裏有一個我們的客户使用設計師的模板,展示了他的編輯界面長什麼樣子、有哪些圖片進行編輯,設計師把這個東西設計好之後導出,其他用户就可以在web端移動端進行模板本身的編輯,還有渲染輸出。還有一個移動端的編輯。時間關係我就不一一視頻展示,等一下我會把這個體驗的二維碼發出來,大家可有興趣的可以直接掃碼,在手機端安裝體驗。

圖片

動態模板主要是體現在電子相冊,那麼不同點在於什麼呢?我們是基本上把一個設計師他的模板進行一個模塊化的拆解,比如你做完了一個作品,我們幫你拆解成不同的動畫片段,當用户流入一些任意數量的素材的時候,我們會把這個模板打散重組,保證它的效果。就是根據用户素材的數量去生成一個專業的視頻效果。因為電子相冊的使用場景是以前我們並不知道用户大概需要多少張圖片,所以對我們的模板創作也提出了一些新的需求。

圖片

攝像機模板SDK比較容易理解,它結合攝像機的一些能力,設計師在設計模板的時候可以把自己模板中的某一個素材設置為攝像機輸入源,那麼他的模板裏面其他的一些特效動畫得以保留,同時又可以和相機畫面進行實時的互動。像一些基礎的美顏、美型的能力也都是很好的,能夠配合模板進行使用。

圖片

剪輯SDK大家應該都很熟悉,比如説它提供的一些軌道、轉場、特效等,這些元素似乎變成我們現在做視頻處理的一些技術方案的基本素質了。我們仍然是把設計師融入到整個解決方案中。舉個例子,就像我們在使用一個剪輯過程中,它的轉場、特效,字符的動畫樣式等都源於設計師在AE中設計好後進行模塊化的拆解,導出成不同使用場景下的預設包。大家要是感興趣的話,可以直接掃描二維碼去下載我們的demo進行體驗,大家會看到現在裏面大概是提供了兩三百套像轉場、特效、濾鏡、預設,基本上這些花了我們兩個設計師大概兩週的時間,根本沒有任何開發的參與。

圖片

VE SDK擁有強大的跨平台能力,除了移動端以外,我們的桌面端包括服務器、web瀏覽器,我們利用Websambly技術進行了支持。我們設計的VE Exporter接下來也會朝web端的方向發展,主要是為了讓我們的整個設計工具的體驗變得便捷,同時和我們的社區裏面的資產進行一個比較良好的互動。

3.客户案例

接下來和大家分享一下典型的客户案例。

3.1 電商智能

首先是在電商智能這一個領域。我們是從去年5月份開始和阿里的智能設計部門進行合作,阿里現在面臨的一個問題主要是去解決他們整個電商廣告從圖片向視頻升級的一個時代的變遷。智能設計以前一個非常棒的解決方案就是他們的魯班,大家打開淘寶之後能看到一個平面廣告,這個平面廣告是千人千面的,在你打開的100毫秒以內,它為你自動設計了一個圖片。他們現在接到的新任務就是開始要提供一種智能化視頻的生成了。我們從去年5月份開始,利用我們的模板解決方案和他們的需求進行對接,幫他們實現了目前一些移動端還有云端的智能電商視頻製作的一些產品。

AI這一方面我們和達摩院有一個比較深入的合作,目前我們跟他合作了一款智能剪輯的產品叫做“橙畫”。這個產品現在應該是已經上線的狀態,大家可以去體驗。我們主要是結合了達摩院的AI識別能力加上我們視頻處理以及模板的能力去完成整個智能剪輯的一鍵操作流程。

3.2 運營商

運營商也是一個目前5G時代比較活躍的羣體,因為大家都在探索在5G的這個場景中運營商能夠提出什麼新的業務。其中有一個業務是視頻彩鈴,其實視頻彩鈴本身只是對音頻彩鈴的升級,把音頻的內容升級成視頻,但是一個新的需求是這個視頻從哪裏來。以前音頻時代往往是大家去採購一些個性音頻;那麼現在視頻時代,廠商希望用户可以自己去製作這些視頻內容,於是這個視頻內容的製作變成了一個新需求。目前我們和國內的幾個運營商保持着良好的合作,為其提供視頻創作平台的技術支撐。

我今天的分享內容就這麼多,謝謝大家!


講師招募

LiveVideoStackCon 2022 音視頻技術大會 上海站,正在面向社會公開招募講師,無論你所處的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的。歡迎通過 [email protected] 提交個人資料及議題描述,我們將會在24小時內給予反饋。