智能视频内容生产中专业视频数据导出工具的研发

语言: CN / TW / HK

随着智能视频生产时代的到来,专业视频的制作将会变得更智能、更简单。智能视频生产中主要包含三大模块,他们分别是:视频SDK底层能力、AI能力以及海量视频预设导出能力。本次LiveVideoStackCon 2021北京站,杭州视杏科技有限公司CEO 李志强,向我们分享了如何研发智能视频预设工具来辅助设计师智能导出预设内容以及一些成功的案例。

文 | 李志强

整理 | LiveVideoStack

大家好,我是来自杭州视杏科技有限公司的创始人&CEO——李志强(节子),视杏科技主要关注的是专业视频数据的导出。为什么要强调的是“专业”,这在我整个分享的过程中大家也会陆续地感觉到。

先来看一下我们今天分享的题目——智能视频内容生产场景中专业视频数据导出工具的研发。智能视频内容生产场景的概念,大家可能都已经接触过。我们尝试解决设计师感性设计的一些问题,主要针对的是一些对视频内容需求量比较大、频次比较高且对制作效率要求比较高的场景,这需要利用技术智能地去实现内容的生产。在这种生产中之所以需要这一些数据的导出,是因为目前来讲,我们的解决方案特别是针对专业视频生产这个环节的方案,是不可能把设计师这个角色排除在外的,因为专业视频生产本身还是要依靠专业设计师的感性设计能力,我们能做的就是把这些感性设计的能力数据化,变成我们的代码,变成可以去重复利用的一些资产。今天我就和大家分享一下我们公司在牵扯到这一方面问题的时候,是如何做操作的。

1.进入视频内容生产技术的现状

图片

1.1 应用场景

1.1.1 自动化广告

图片

首先我们了解一下现状,这里列举了几个应用场景。首先一个比较大的应用场景就是自动化的信息流广告,这个需求场景的出现就像目前大家热议的“内卷”,是基于这种状态下产生的一个新的需求。

特别是在出海领域我们的一些客户在去投放广告的时候,比如面对的客户可能是一些东南亚国家,每个国家有自己的语言,如果我们使用以前传统的低频次广告投放,可能一周或者一个月更新一次广告内容,那么使用人工的手段去制作视频广告是没有问题,但是现在当我们需要去提高用户对这些广告的兴趣度、关注度时,我们不得不去针对每个用户个人的用户画像,为他们提供定制的视频内容。在这个时候,自动化的视频广告内容生产便成为一种行业需求,这方面我们主要是与Facebook中国区广告代理商达成合作。中国很多出海的APP、外贸行业从业人员需要通过代理商去做一些海外社群的信息流推广。我们主要帮助去解决这种智能信息流视频广告生产的问题。

1.1.2 模板化视频制作网站APP

图片

相信在座各位都比较熟悉一些模板化的视频制作,这也是现在应用比较广泛的一种偏专业的视频内容生成的方式,也是我们很多移动端的产品中目前都具备的能力,同时也是为了让我们这些非设计师的普通用户,能够便捷地通过一次两次的点击的方式生成一个专业视频所采取的一种手段。在这方面移动端的客户比较多,这里暂时不一一列举。

我们选择的一种方案是希望融入专业设计师的设计能力。专业设计师的创意能力培养以及对一个工具熟练使用程度本身的成本高、周期长。为了对设计师友好,我们选择直接兼容设计师目前熟悉的工具链AE去设计各种复杂的模板。

1.1.3 直播混剪

图片

一些直播的混剪工作,我们主要和达摩院合作。因为像电商进行直播,他们一条直播素材可能就5、6个小时,而这些直播素材往往还需要进行二次加工,如果我把直播中一些高光片段拆出来后再进行二次剪辑,再去生成一些短视频,再在其他的短视频平台投放,那么从这里可以看出这个剪辑的工作就变成一个劳动密集型的工作,人工参与进去变得是ROI很低的一个事了,所以我们也在利用我们在视频剪辑方面的能力去实现直播视频的剪辑和包装工作。

1.1.4 景区原生素材生产

图片

景区为了丰富游客的游玩体验,或者像一些新能源汽车根据车载摄像头收集到的视频素材制作出智能剪辑,他们其实都是同一类型的需求,让我们的生活体验开始升级,利用智能的技术为我们生活中一些原本需要手工操作的事情提供一种智能化的解决方案。

1.2 智能视频技术生产难点

图片

有了许多需求场景做铺垫,我们现在遇到的问题有哪些呢?我们与大家分享一下。

第一个难点是AI能力,这是我们在进行智能生产的第一步。我们需要理解用户的素材,理解主要是对语义的理解、多模态的识别等技术手段去对用户的素材进行分析。这一方面工作,今天参加LVS的合作伙伴里有一些做的已经非常棒了,我们主要关注的是后面两个难点。

第二个难点是主题模板,它主要指的是一个比较完整的专业设计本身所包含的整个流程:从设计师这一侧去设计形成创意把它变成一个可视化的作品,到最终把这个作品变成一个可编辑的模板投放给的C端用户。

第三个难点是视频预设,它主要指的是一些在剪辑过程中获取到的视频模板并不完整,我们需要去把设计师的能力进行模块化的拆解,再把这些模块化的能力再提供给有一定创作能力的小白用户,使他们可以进行二次利用。

1.3 目前现状

图片

我们认为还存在着两个比较大的问题,这里和大家探讨一下。

首先第一个问题是效果比较差,我们在讨论一个效果或者一个模板本身所包含哪些效果,特别是从技术一侧去讨论这个问题时,比如现在比较流行的“灵魂出窍”,这些词变成了一些行业术语了。但是从设计师的角度看,他们并不会去这样去描述一个效果本身,因为他们会使用一个他熟悉的工具比如AE,而AE会把它拆解成图层的动画,在图层本身再加上一些特效,或者图层样式,或者和其他图层互动产生一些track matte等等,通过多种工具的组合形成各种各样的效果,而不是局限在某一种特定的效果如何实现。如果我们对设计师的工作流程或者他的能力支持的不到位,就会出现设计师的创意没办法施展开的问题。

不知道各位公司里面有没有遇到这种情况:某天你的设计师在和技术区人员讨论时说大脑中有这么一个效果的技术,而技术人员听到设计师的需求就觉得这个想法比较难实现。其实在设计师的角度看,这个想法是非常简单的,因为他已经熟练使用AE的工具集,他能很快的去制作出效果,但是针对这些效果如果技术侧没有对应的技术解决方案,往往就会变得非常棘手了。

第二个问题实际上是由第一个问题造成的,如果我们没有给设计师一个称手的工具,那么设计师的设计能力、进行数据转化就变得非常困难。在这个时候技术人员就被迫又参与其中:在设计师产生的一堆原始数据的基础上,进行一些代码的二次加工,把它形成一套SDK可以处理的模板。

我们的决心是把这两个问题彻底解决。

2.智能视频生产时代需要的预设导出工具

2.1 方案介绍

图片

我们这边给设计师的一个设计工具叫做VE Exporter,它是服务于设计师的一款工具,设计师能够利用它去产生数据模板、设计模板,这个设计模板再配合我们的VE SDK,它可以形成各种功能化的体验,比如模板视频、相册、动态模、摄像机模板、贴纸滤镜等。而所有功能都来源于设计师的创意。

图片

我是设计师出身,所以我对设计师能力在我们技术行业的应用的事情耿耿于怀。专业设计师本身的创意能力如果不能发挥出来,那么技术人员能做的仅仅是一些蹩脚的临摹工作而已,所以我们会非常在乎这个问题。这里有一个视频,我给大家展示一下。

当设计师在利用AE设计工具自由地创作好一个作品之后,可以启动VE Exporter,VE Exporter可以一键载入它的效果,它可以设置一些默认的背景音乐。当我们从需求场景出发,我们可能还会遇到一个问题:我们把这个模板给用户之后,用户怎么去进行修改呢?VE Exporter还提供了一些设计工具,可以把模板的编辑界面都设计好。设计完成后,比如在AE里有100个素材,但其中有1-10个素材我们希望用户能够修改,剩下的素材并不希望用户去触碰,而这个时候这些素材的可编辑器以及它在界面的哪一个编辑组能够呈现,都可以在这里通过拖拽和摆放进行比较好的设计。最后就可以把它导出成一个模板包,然后放到SDK里面去编辑使用。

图片

我们现在具体做到了一个什么程度了?简单来说就是我们在兼容AE,但实际上我们要做的是全是苦功夫。因为AE本身不是一款开源软件,它没有技术规范,我们要做的工作就是倒推它每一个参数后面的算法是什么, 然后我们自己再通过我们的方式把它实现,保证我们得到的结果是和AE完全一致的。为了这个工作,我们把以前从设计师时代的经验积累到现在我们对图形学的一些理解,进行了深入挖掘,最终得到了现在不错的综合体验。

目前的我们对AE中除了灯光层以外几乎所有图层都进行了一个支持,比如视频层、图片层、序列帧、文字层、空层、调节层、固态层、摄像机层等都有一个完整的支持,像一些关键的动画如图层的动画、摄像机动画、mask形状动画、字符动画、layer style动画都有完整的支持。为什么AE被大家所广泛喜欢,其中有一个非常大的原因在于它有丰富的特效系统,为了让设计师能够比较自由地使用AE,我们也花了很多苦功夫去对AE里面的特效进行二次研发。如果我们把现有的能力做成一个新的特效,其实并不复杂,但是如果要保证一个现有的黑核特效,把它完美地还原出来,这个工作就开始变得棘手了。

举个例子,我们在去实现AE里的3D图层渲染的时候,从游戏图形学的角度去解读这个工作与我们从设计师的角度去理解这个工作,它实际上是完全不同的两个难度。再举个例子,大家看一个矿泉水瓶,它本身是个3D物体且半透明,当你把这些矿泉水瓶从前到后叠成一条线,就会出现多个半透明的物体前后穿插的光线渲染的问题。这个问题在AE里的一个表现就是半透明的3D物体互相穿插以及应用了各种图层混合模式之后,如何得到一个正确的结果。这个问题通常在游戏引擎里面,大家的做法是根据一个物体具体摄像机的位置进行排序,把最远的物体先渲染,最近的物体依次往后渲染,再使用混合模式。但这个工作在AE中行不通,因为AE里的图层顺序是设计师决定的,我们不能去改它的顺序,所以为了完成整个渲染任务,我们不得不去研究这种像这种乱序的3D透明的算法该如何实现。目前我觉得这个问题我们解决的不错,大家如果感兴趣也可以去下载一下VE Exporter结合AE体验一下我们的效果。

图片

AE本身的插件非常丰富,我们在兼容它的插件时,不能一步到位把所有的东西都兼容掉,我们的思路是这样的:先去兼容那些使用量非常高,而且在模板上必要兼容的一些插件。当有一些特效并不需要用户去修改的时候,我们并不需要去实时渲染它,我们甚至可以提前把它渲染成一些素材来节省这个实时操作时候的一些计算量,像粒子插件、一些光效插件往往是这种类型的,那么这种插件我们没必要现在兼容。我们现在兼容的往往是那些需要应用在用户的素材上,没办法进行提前渲染的插件,比如说调色、变形、模糊,包括一些对背景的处理、转场插件等。

图片

除了对AE的插件进行介入以外,我们还研发了大量的AE插件。一方面,作为设计师可以直接下载安装到自己的AE中,在日常的设计工作中正常的使用它;另一方面,用这些插件做的效果直接放到SDK也可以完美还原,SDK和AE的功能是同步的。

我们自己研发插件主要有两个方向,第一个主要是AE有些现有的能力,但是如果按照现有AE的使用习惯使用可能导致渲染效率不高,我们在移动端去还原这个效果的时候,产品体验就不好。所以我们往往会使用我们自己的一套算法,把这效果做一个加强来去优化整个渲染流程。

图片

另外一个方向就是增加一些AE本身不具备的能力。举个常见的例子,像我党在开会的时候往往会有一些金光闪闪的大字,这种大字在我们模板制作中的应用是非常广泛的,而这种效果在AE里面去做非常难实现,而且渲染效率非常低。那么针对这种特定的使用场景,我们往往会提供一些非常便捷、一键出效果的设计工具给到设计师,让他在日常的模板设计中能够做出非常不错的效果。现在插件我们几乎是每个月都会发两款左右,而且都是免费的,大家都可以去下载使用。

图片

这里有一个视频,大家看一下。像视频里的元素,基本上都是可以修改的,用户只用在键盘上输入一个新的字,那在保证同样效果的情况下,原来的文字的元素都会被替换掉。后面呢有一些我们的设计师用我们的插件做的一些效果,大家可以看一下。刚才的视频是设计师用我们发布的插件在他日常使用中做模板的一些效果的混剪。

2.2 方案优势

图片

刚刚给大家介绍的VE Exporter以及我们选用的这一套技术方案,我们觉得它本身具有三个比较大的优势。

首先第一个优势是VE Exporter从它底层的对AE的解析以及它对SDK的渲染本身都是我们从0开始研发去完成的,所以我们并不需要拘泥于任何现有的技术形态。

第二个是优势是,我们非常注重设计师的体验,VE Exporter的使用流程和AE的操作习惯都是完美吻合的,而且它可以直接被安装到AE中,对设计师友好度非常高。

在座的应该接触过一个技术方案,以前他叫做BodyMovin,但现在大家应该更多接触他名字叫Lottie,这个方案之前是我认识的一个国外的开发者好友写的一个主要是解决UI动画的一个数据导出,把AE里面的一些UI动画导出成json格式,后来被Airbnb提供了一些渲染框架之后,中国很多厂商都会利用它来实现模板渲染的技术方案。本身它有很好的用户基数,主要原因是它是开源、免费。为了让我们的客户包括我们的设计师能够有大量的素材,我们的SDK也是直接兼容Lottie的这套方案的,也就是说现在市面上的所有的Lottie文件可以直接放到我们SDK,可以有完美的功能还原。

2.3 VE Leap

图片

既然设计师对我们来说那么重要,那我们一定要服务好他,除了从工具上服务好他,我们还提供了一个设计师的社区,叫做VE Leap,网址就是veleap.com。

它的功能主要有三个主要有三个。第一个是提供专业的设计工具,主要提供一些AE的插件、增效工具去帮助解决设计师在模板设计中遇到的所有的这个痛点问题。

第二个是提供专业的设计教程。

第三个是这个模板的交易,最开始从一些B端客户的需求发起。因为当这个设计工具本身足够开放、灵活之后,它会立刻产生大量的素材需求,这个时候市面上的任何一个设计师都可以变成它的这个素材供给者。因为VE Exporter足够好用,基本上一个新设计师三个小时就可以上手产生模板,所以会有很大量的模板交易的需求在我们平台上流转。现在VE Exporter我们还没有做一些推广,目前的用户接近1万名设计师左右。我们其中很多还在上学的设计专业的设计师,基本在平台上都每月能够有上万元的收入。

2.4 技术方案生态

图片

那么VE Exporter、VE Leap和SDK他们三者,SDK今天不是我所讲的重点,但是它本身是一个不可或缺的角色。像我刚才提到的它主要解决的问题是给我们的模板提供一个跨平台产品化使用的一个解决方案;VE Exporter主要做的工作是对我们的设计进行数据化的导出;VE Leap是使用我们工具的设计师进行交流学习、创作变现的一个社区。这三者是互相促进、相互影响的一个关系。

2.5 C端用户解决方案

图片

下面我简单介绍一下我们现在针对C端用户一侧提供的一些解决方案。

第一个方案是标准模板。这个比较容易理解,设计师把自己一个完整的作品作为一个模板投放出去给普通用户去使用。这里有一个我们的客户使用设计师的模板,展示了他的编辑界面长什么样子、有哪些图片进行编辑,设计师把这个东西设计好之后导出,其他用户就可以在web端移动端进行模板本身的编辑,还有渲染输出。还有一个移动端的编辑。时间关系我就不一一视频展示,等一下我会把这个体验的二维码发出来,大家可有兴趣的可以直接扫码,在手机端安装体验。

图片

动态模板主要是体现在电子相册,那么不同点在于什么呢?我们是基本上把一个设计师他的模板进行一个模块化的拆解,比如你做完了一个作品,我们帮你拆解成不同的动画片段,当用户流入一些任意数量的素材的时候,我们会把这个模板打散重组,保证它的效果。就是根据用户素材的数量去生成一个专业的视频效果。因为电子相册的使用场景是以前我们并不知道用户大概需要多少张图片,所以对我们的模板创作也提出了一些新的需求。

图片

摄像机模板SDK比较容易理解,它结合摄像机的一些能力,设计师在设计模板的时候可以把自己模板中的某一个素材设置为摄像机输入源,那么他的模板里面其他的一些特效动画得以保留,同时又可以和相机画面进行实时的互动。像一些基础的美颜、美型的能力也都是很好的,能够配合模板进行使用。

图片

剪辑SDK大家应该都很熟悉,比如说它提供的一些轨道、转场、特效等,这些元素似乎变成我们现在做视频处理的一些技术方案的基本素质了。我们仍然是把设计师融入到整个解决方案中。举个例子,就像我们在使用一个剪辑过程中,它的转场、特效,字符的动画样式等都源于设计师在AE中设计好后进行模块化的拆解,导出成不同使用场景下的预设包。大家要是感兴趣的话,可以直接扫描二维码去下载我们的demo进行体验,大家会看到现在里面大概是提供了两三百套像转场、特效、滤镜、预设,基本上这些花了我们两个设计师大概两周的时间,根本没有任何开发的参与。

图片

VE SDK拥有强大的跨平台能力,除了移动端以外,我们的桌面端包括服务器、web浏览器,我们利用Websambly技术进行了支持。我们设计的VE Exporter接下来也会朝web端的方向发展,主要是为了让我们的整个设计工具的体验变得便捷,同时和我们的社区里面的资产进行一个比较良好的互动。

3.客户案例

接下来和大家分享一下典型的客户案例。

3.1 电商智能

首先是在电商智能这一个领域。我们是从去年5月份开始和阿里的智能设计部门进行合作,阿里现在面临的一个问题主要是去解决他们整个电商广告从图片向视频升级的一个时代的变迁。智能设计以前一个非常棒的解决方案就是他们的鲁班,大家打开淘宝之后能看到一个平面广告,这个平面广告是千人千面的,在你打开的100毫秒以内,它为你自动设计了一个图片。他们现在接到的新任务就是开始要提供一种智能化视频的生成了。我们从去年5月份开始,利用我们的模板解决方案和他们的需求进行对接,帮他们实现了目前一些移动端还有云端的智能电商视频制作的一些产品。

AI这一方面我们和达摩院有一个比较深入的合作,目前我们跟他合作了一款智能剪辑的产品叫做“橙画”。这个产品现在应该是已经上线的状态,大家可以去体验。我们主要是结合了达摩院的AI识别能力加上我们视频处理以及模板的能力去完成整个智能剪辑的一键操作流程。

3.2 运营商

运营商也是一个目前5G时代比较活跃的群体,因为大家都在探索在5G的这个场景中运营商能够提出什么新的业务。其中有一个业务是视频彩铃,其实视频彩铃本身只是对音频彩铃的升级,把音频的内容升级成视频,但是一个新的需求是这个视频从哪里来。以前音频时代往往是大家去采购一些个性音频;那么现在视频时代,厂商希望用户可以自己去制作这些视频内容,于是这个视频内容的制作变成了一个新需求。目前我们和国内的几个运营商保持着良好的合作,为其提供视频创作平台的技术支撑。

我今天的分享内容就这么多,谢谢大家!


讲师招募

LiveVideoStackCon 2022 音视频技术大会 上海站,正在面向社会公开招募讲师,无论你所处的公司大小,title高低,老鸟还是菜鸟,只要你的内容对技术人有帮助,其他都是次要的。欢迎通过 [email protected] 提交个人资料及议题描述,我们将会在24小时内给予反馈。