下一代编解码技术Ali266在视频超高清领域的应用展望

语言: CN / TW / HK

超高清与各领域的需求融合和创新正在发生。

2022年是一个体育大年,众多世界级体育赛事通过视频直播、转播等形式给观众带来畅爽的观看体验。

2022年北京冬奥会,实现了奥运会历史上首次赛事全程4K制作播出,并在开幕式上提供了8K超高清公共信号,让观众可以享受到超高清视频带来的更加清晰、真实和沉浸的比赛画面。

随着国家政策持续发力、市场需求不断增长,视频作为信息传播的重要载体,正在经历从标清、高清到4K超高清、8K超高清的发展。与此同时,超高清视频应用范围也渗透至各行各业,从广播电视、文化娱乐,到安防监控、医疗影像,超高清与各领域的需求融合和创新正在发生。

01 超高清产业风口vs编码效率困境

从标清到8K超高清,视频分辨率从(小于)1280720增加到(大于或等于)76804320,画面像素从30万像素增加到3200万像素以上。

除了高分辨率外,在高帧率、高色深、宽色域、高动态范围、三维立体声上各项指标都显著提升。帧率从24fps发展到60fps,再到120fps;位深从8bit发展到10bit,再到12bit;从SDR(标准动态范围)发展到HDR(高动态范围);从窄色域发展到宽色域。

分辨率、位深、帧率、亮度、色域的发展让用户的视频临场感体验大大增强,获得更加清晰的画面,更加广阔的视野、更加逼真的色彩,更加平滑顺畅的画面和更加立体环绕的声效

但是随着分辨率尺寸越来越大,帧率越来越高,以及动态范围的增大等,也使超高清视频传输的数据量陡增,给视频传输和后端存储带来巨大的压力和激增的成本。以一部2小时的蓝光电影(分辨率1920*1080,帧率24fps)为例,未经压缩的数据量约为500GB,以100Mbps带宽进行传输,这部2小时的电影需要传输超过11小时。

面对如此巨大的传输和存储压力,编解码技术的迭代为4K/8K超高清视频的发展和普及夯实了技术基础。视频编解码技术通过去除时间、空间和视觉冗余等方式,实现对原视频的压缩与解压,将其转化为更易传输的视频码流,提升视频传输效率的同时保留了原视频的高清画质,使用户流畅高清观影成为现实。

近30年来,视频编码标准正遵循其自身的“摩尔定律”不断演进。ITU-T和ISO/IEC MPEG两大重头国际视频标准组织不断推动视频编码标准的迭代,每次迭代压缩率相比上一代实现翻倍,编码效率的提升触发了很多视频产业界的技术变革和创新。

H.262/MPEG-2 标准的出现推动了模拟电视到数字电视的变革;H.264/AVC 的出现使高清视频和互联网视频得以广泛推广;H.265/HEVC 成功推动了 HDR和4K 超高清视频的落地;最新一代H.266/VVC更将推动4K/8K超高清视频及VR/AR视频的发展和普及。

02 夯实基础:新一代多功能视频编码H.266/VVC

近年来,随着高清、超高清视频应用走进大众的视野,视频编码技术受到了巨大的挑战。此外,各式各样的视频应用也随着网络技术、视频采集处理技术和存储技术的发展不断涌现。

如今,数字视频广播、视频会议会话、短视频、沉浸式视频体验、远程监控、医学成像和便携摄影等,都已走进人们的生活。

同时,由于远程办公的兴起,在视频会议场景中往往要对屏幕内容(PPT、文档、表格等)进行分享。因此,视频应用的多样化和高清化趋势对视频编码性能提出了更高的要求。

最新一代H.266/VVC标准是国际两大标准组织联手推出的最新一代旗舰视频标准。包括阿里巴巴在内的全球贡献者积极参与H.266/VVC标准的制定,持续推动技术的迭代升级,持续优化视频播放的流畅度与高清度,实现在同等画质下更省流在同等带宽下更高清的观看体验,特别在优化4K/8K超高清视频VR/AR视频360度全景视频的观看体验上表现突出。

码率压缩性节省50%,极大减轻超高清视频的传输和存储负担。

H.266/VVC仍然是在基于块的混合编码框架内,但几乎对编码的每个环节都进行了改进,并在H.265/HEVC基础上新增了多种编码技术或工具,挤压尚未除尽的信息冗余,使H.266/VVC在相同视频感知质量下能够比H.265/HEVC节约50% 左右的码率,压缩性能卓越。列举部分技术特色如下:

灵活的块大小和块划分结构,更加适用于超高分辨率视频

下图显示了H.266/VVC与H.265/HEVC两代标准块划分方式的不同。

在H.265/HEVC中,最大的块尺寸是64x64,而在H.266/VVC中,允许块尺寸最大达到128x128。最大块尺寸的增加对于4K、8K或360°视频等高分辨率视频尤其有利, 因为这些视频更容易包含大面积的同质区域。

在这些同质区域,采用更大的编码单元可以减少信令的开销,从而实现更大的视频压缩。实验结果表明,分辨率越大,H.266/VVC所取得的码率降幅也越大

此外,H.266/VVC采用基于四叉树+二叉树+三叉树的编码单元划分,编码块可以是正方形或矩形,而H.265/HEVC中的块只能是正方形(四叉树结构),这种划分方式可以根据图像内容自适应进行,提升了划分灵活性

更多的帧内预测模式,更有效地去除空间冗余

帧内预测编码是去除空间冗余的核心技术之一。H.266/VVC的帧内预测比H.265/HEVC预测方向更细、更灵活。

如下图所示,H.266/VVC为亮度预测块定义了65种不同的基本帧内预测方向,相当于在H.265/HEVC帧内预测33个方向的基础上,每两个方向中间增加一个方向,连同平面(Planar)和直流(DC)模式,共67种预测模式。

H.266/VVC亮度帧内预测单元还包含矩形模式,考虑到方便矩形的宽角度帧内预测(Wide Angle Intra Prediction, WAIP)模式,H.266/VVC的帧内预测在65种方向的基础上分别增加了-1到-14和67到80方向,共28个方向,这样H.266/VVC帧内预测编码总共有93个方向。

H.266/VVC除了增加帧内预测方向和宽角度帧内预测模式外,还使用了帧内子区域划分(Intra Sub-Partitions,ISP)技术、跨分量线性模型(Cross-Component Linear Model,CCLM)技术、多参考行帧内预测(Multiple Reference Line Intra Prediction, MRLP)技术、位置依赖的帧内联合预测(Position Dependent Intra Prediction Combination, PDPC)技术、基于矩阵的帧内预测(Matrix based Intra Prediction,MIP)技术等。每一种模式都代表了利用待编码块相邻像素来合成预测块的机制,方向越多,帧内预测精度越高,从而更有效地去除空间冗余

扩展和新增帧间预测模式,更有效地去除时间冗余

帧间预测编码是H.266/VVC扩展和新增编码工具和技术最多的模块,在基础H.265/HEVC已有的帧间预测编码技术的基础上,在运动矢量的预测和获取、运动补偿等模块中,都增加了许多新技术。一个比较有意思的例子是几何划分预测模式(Geometric Partition Mode,GPM),如下图所示。

在前几代标准中,运动估计是在方形或矩形形状的块上进行的,以从先前编码帧中类似形状的块中预测它们。然而,实际视频内容多种多样,当运动物体具有非水平或垂直边缘时,常规矩形编码块并不能有效匹配,预测表达不够高效。

针对这个问题,H.266/VVC可根据需要采用几何划分模式,用自己块内的一直线将该编码单元分割成为两个部分(导致三角形或梯形形状的子分区)。然后,两个部分可根据各自的运动信息,运动补偿出各自的预测值,从而提高了预测精度。

定位多功能视频编码标准,极大提高新型超高清视频用户体验。

更好地兼容10bit位深,配合终端显示设备,视频色彩更加逼真

HDR/WCG视频数据具有高水平的亮度,并且具有更广泛的色域。对于HDR10视频,编码的问题是如何有效地支持这种更丰富的数据类型,既支持更大的亮度规模,又支持更宽的色彩范围。

H.266/VVC在2017年10月发布技术征求书时,就将HDR/WCG作为主要面向的应用,因此,其入门档次(Main10 Profile)就支持10bit位深的编码标准。而在其前几代标准中,入门档次只支持8bit位深,而10bit位深需要利用扩展档次才能支持,因此一定程度上降低了对10bit位深视频的兼容性。

采用特殊编码方式保障360全景球面视频的压缩效率和观看质量

基于360度全包围视角的球面视频的渲染需要,H.266/VVC标准引入了子图的概念,它可以有效地提取和合并不同质量的视频片段,很好地满足了沉浸式视频有效视图的渲染需求。此外,还采用了特殊的编码工具,包括水平环绕运动补偿、虚拟边界取消环路滤波等,来进一步提升视频压缩性能,提高沉浸式视频的观看质量。

多层编码机制,实现超高清视频在复杂网络环境下的低延时传输,保障用户互动体验

此外,H.266/VVC采用了渐进解码刷新技术避免超低时延视频流中的码率波动,采用参考帧重采样技术为自适应视频流提供灵活的空间分辨率变化,采用多层编码机制提供了时域、空间域及质量域的可分级能力,保证超高清视频的低延时互操作性和用户体验。

03 再升级:Ali266提供完整的实时高清编解码能力

Ali266是达摩院视频技术实验室对最新标准H.266/VVC的编解码实现,具有自成一体的完整实时高清编解码能力。Ali266的设计遵循H.266/VVC标准,具备该编码标准高效性和多用途性等特点。Ali266编解码器为业界提供了新一代视频编解码高效解决方案,极大推动了H.266/VVC标准端到端的生态建设。

在解码端,Ali266自研的解码器架构、数据结构和内存可复用设计,通过多核并行、汇编优化、内存占用和访存效率优化等一系列工程和算法的优化手段来提高解码速度,可完美兼容Android、iOS、Linux、MacOS、Windows等多种平台。值得一提的是,集成Ali266解码器的中低端手机也可清晰流畅地观看最新的H.266/VVC视频或直播,更好地满足移动互联网时代的用户使用需求。

此外,Ali266解码器在稳定性鲁棒性内存占用等方面充分考虑了商业化软件的需求,经过不同平台多款高中低端设备的大规模测试,验证了Ali266解码器的鲁棒性、稳定性和可商用性。

在编码端,达摩院视频技术实验室凭借在视频编解码领域的深耕和积累,将目标锁定在研发一款能根据不同应用,提供不同速度档位,具备离线和实时处理能力的H.266/VVC编码器,致力于推动H.266/VVC标准的实用化和最新科技成果的普惠化,为当前超高清视频应用带来更优质的用户体验。

Ali266一方面通过实现多种编码算法提升编码质量,提高压缩效率,例如运动补偿时域滤波,自适应GOP大小决策,场景切换检测,屏幕内容检测、码率控制技术等。另一方面,Ali266涵盖了上百种编码快速算法,配合多线程技术、汇编指令、内存访问效率等工程优化手段,大幅提高编码速度。

在MSU主办的2021年世界编码器大赛中,Ali266获得了全高清(FullHD)客观性能赛道14项评测指标中的8项第一,4项第二,2项第三;在主观性能赛道,Ali266更是在全球16款参赛编码器中以大比分优势获得第一,在与MSU官方指定的基准编码器x265相同的主观质量下,带宽节省高达71% 。MSU大赛结果显示,Ali266是唯一一个所有指标都进入前三的编码器,充分证明了Ali266在各指标下全面均衡的编码性能

2022年11月初,Ali266亮相云栖大会,观众可近距离观看Ali266生产的电影、动画、纪录片、武术动作等四个超高清视频,并亲手参与互动体验Ali266与上一代视频编码标准H.265/HEVC的开源编码器x265的主观画质对比。实验结果显示,在上述四个场景下,在同等主客观画质下,Ali266编码的视频比x265编码的视频码率平均降低54% 以上,为Ali266在超高清产业的应用描绘了光明的前景。

04 持续渗透:Ali266的多领域应用与展望

Ali266在娱乐视频领域的应用

视频超高清化首先在娱乐视频领域取得了重要进展,从传统的电视台、运营商,逐渐向互联网OTT聚合平台,短视频应用、影业制作、线下体验店等渗透。5G+4K/8K制播技术逐步成熟;各地陆续开播4K频道;IPTV差异化发展;超高清内容迅速增加。国家广电总局陆续出台了 5G高新视频系列白皮书,涵盖互动视频、沉浸式视频、VR 视频和云游戏四个方面。文教娱乐领域云化超高清应用不断涌现,慢直播、网红直播和直播带货、云赛事、云演艺、云展览等新业态成为新的亮点。

在视频超高清化的进程中,依托于达摩院视频技术实验室的Ali266,阿里云一直在探索推动Ali266的商用之路。2022年1月Ali266在优酷正式上线,优酷也成为目前已知的业界首个H.266/VVC的商用落地项目,充分享受视频编解码标准升级带来的技术红利。

除了内容创作外,随着5G、AI、大数据、编解码技术、VR/AR等技术的发展,各视频平台纷纷在技术上加码,旨在通过领先技术的应用为用户带来更加流畅高清、交互沉浸的感官体验。优酷作为中国领先的视频平台,通过技术驱动打造了帧享超高清优酷自由视角等超高清全景式视频来提升用户的观看体验。

帧享是由优酷发起,与产业链合作伙伴联手打造的新一代视频制作与播放标准,包含两大业务板块:帧享超高清和帧享数字化制作。帧享超高清打造了从质量评估,HDR调色,4K 120帧重制的超高清内容生产流程,输出了4000余部帧享级超高清影片,并为所有主流影音设备厂商提供了超高清认证服务,覆盖了包括11个手机品牌、8个电视机品牌 、2个投影仪品牌,以及多家省市运营商机顶盒,把上千款设备屏幕的显示误差校准到行业领先水平,为超1亿的用户带去了名副其实的超高清观影体验

优酷自由视角是可以让用户在动态过程中实现360度自由观看,特别适合体育比赛、综艺表演等场景使用。优酷曾在CBA、CUBA直播、《这!就是街舞》、北京冬奥会上使用这种技术。普通用户不用特殊装备,可用手指滑动手机屏幕从任意角度观看全部细节,体验到前所未有的“观看自由”。

提供这些应用体验的背后,是一系列非常复杂的技术,其中最核心、最基础的技术之一,就是视频编解码技术。据测算,自优酷上线Ali266以来,在码率上,同等画面清晰度的情况下比原H.265/HEVC方案码率最高节省40% ;在体验上,卡顿率降低50% ,平均解码耗时在8ms左右,稳定性超过99.95% ;在功耗上,满电可H.266软解播放10小时;在内容上,覆盖了优酷高清、超高清等多种视频类型和综艺、赛事、影视剧等多种内容题材。

Ali266在安防监控领域的应用展望

Ali266除了在娱乐视频应用可能外,在安防监控领域也有巨大的应用空间。安防监控是超高清视频技术的发力点,整个安防监控解决方案中包含的子系统都需要通过前端高清成像才能实现功能的发挥和协同。超高清视频技术使视频监控图像更清晰。

作为安防监控主要的视频采集端侧设备,摄像机的采集分辨率越来越高,从200万到800万再到3200万像素,各类媒体播放及超高分视频服务器输出的视频源像素也已达到8K甚至更高级别,众多显示屏厂商推出了4K/8K的超高清显示设备,安防行业逐步进入超高清时代,从而带动整个超高清产业链的发展。

安防监控领域的超高清产业发展,对视频编解码的应用不仅需要实现高效的视频压缩效率,同时需要兼顾高清画质与超低编解码及传输延迟

此外,随着安防监控领域多视角立体防控的需要,超高清视频监控+AI在智能交通上的应用,多目、多视角视频汇聚的全景拼接摄像机得到越来越大规模的落地应用,多摄像头联动方案逐渐普及和落地,对多视点编码技术提出了越来越广泛的需求。

05 未来:不断进化的Ali266商用之路

Ali266代表了业界最先进的软件编解码实现,并有力推动了最新编解码技术的商业落地实践。但是,整个视频生态的打开,还同时取决于相关芯片、终端设备的发展情况。

据了解,在编解码芯片上,联发科在2021年下半年发布了全球首款7nm工艺制程打造的电视SoC芯片,Pentonic 2000,也是世界首批支持 H.266/VVC视频解码的芯片,具有8K/120Hz的解码能力。这对于完善H.266的生态,是个巨大的助力。

另外在市场需求的驱动下,4K电视市场渗透率不断提高,国内市场渗透率超70%;8K电视成为电视机厂商的标配产品。据机构预测,未来,中国8K电视市场渗透率有望从目前的不到0.5%升至2025年的7%。

据悉,创维电视已在其官网公布了电视A63支持H.266/VVC,其他设备厂商也即将在其最新的产品中广泛支持H.266/VVC这一最新的视频编码标准。DVB 联盟发布了超高清 4K 和 8K 广播规范的修订版,包括下一代 H.266/VVC 编解码器。在 H.265/HEVC 之后,下一代 H.266/VVC 编解码器也已进入 DVB 超高清 8K 广播规范,为8K流媒体打下基础。

伴随着相关技术和产业的发展,Ali266将不断探索新的商业应用可能,赋能超高清产业,作为超高清视频基础技术之一,与5G、人工智能、虚拟现实等技术深度融合,彼此互为应用场景,互为能力补充,从而催生大量新场景、新应用、新模式。