解锁抖音世界杯的画质优化实践

语言: CN / TW / HK

卡塔尔世界杯已经结束,29天赛程,64场比赛,最终梅西带领阿根廷时隔三十六年再次捧杯。世界杯期间,抖音提供的稳定高质直播画面为观众带来了完美的观赛体验,决赛的PCU高达3700W+。

世界杯赛事涉及链路众多,如何保障各链路的画质稳定并进一步提升画质,是一个巨大的挑战。本文主要介绍火山引擎多媒体实验室在世界杯期间画质优化的最佳实践。

画质优化链路

世界杯涉及链路较长,可简化为下图流程,FIFA现场信号首先传到央视端进行合规安全处理,然后经过演播室的制作传输给CDN再进一步分发到用户测。从画质角度来看整个链路可分为画质检测与画质优化两个部分,对于CDN之前的链路以画质监测为主,以发现问题/定位问题/推动对应链路人员解决问题为目的。画质优化在CDN和客户端两侧进行,下面的内容主要介绍画质优化部分。

图片

本次世界杯直播使用支持HDR(高动态范围)设备录制,团队对支持HDR的设备增加了HDR档位,同时提供了多种不同分辨率/帧率的档位。为了使得观众获得更好的画质体验,团队通过自研的自适应ToneMapping,视频降噪,ROI,端上超分等算法有效地提升了赛事画质。

卡塔尔世界杯采用HDR拍摄方式,HDR拍摄的片源拥有更广的色域,更大的动态范围。但对很多终端显示设备而言,并不支持HDR信号播放,所以通过ToneMapping算法将HDR信号转换为SDR(标准动态范围)信号是十分必要的。

图片

相比SDR信号,HDR信号拥有更广的色域和更大的动态范围,在转换到SDR信号的过程中不可避免会产生一些信息损失。常用的一些ToneMapping方法,不论是Reinhard,Filmic或者Hable,其本质都是设计固定的映射曲线实现从HDR到SDR的转换,同时尽量保持对HDR效果的还原。但对于世界杯等大型赛事,现场动态范围跨度极大,场馆的灯光/草地/球员亮度差异明显,观众感兴趣的球员信息实际集中在暗部区域,这就导致ToneMapping之后的SDR信号过暗的问题,为了解决这一问题,团队提出了内容自适应ToneMapping算法,通过统计视频内容的实际光照情况动态地进行ToneMapping,从而得到更优效果。

左: Hable算法,右: 内容自适应ToneMapping

图片

图片

为了兼顾视频码率和主观画质,团队使用了基于LSTM(长短期记忆网络)的时域ROI技术,通过人眼显著性区域检测和编码相结合的方式,让码率在画面上的分配更加合理。目前市面上没有专门针对足球场景的saliency(显著性物体检测)数据集,通用的saliency数据集在世界杯这类特定场景中表现并不理想。针对这一问题,团队专门制作了足球场景的saliency数据集,通过眼动仪追踪球迷观看球赛时的关注区域得到足球比赛的专用saliency数据集,从而极大增加了模型的准确性。针对足球场景中显著性物体较多,显著性区域分散的特点,团队对检测模型进行了专门的优化,在保证检测速度的前提下,提高了模型的召回率和不同场景的鲁棒性,从而实现更优的主观质量。

注:红色框内表示ROI区域,左边为通用方案结果,右边为优化结果

图片

图片

同时团队使用了视频降噪算法,根据视频信息对其进行空域、时域噪声的去除,将带有噪声的视频处理成干净、没有噪声的视频。由于去除了视频的噪声,在提升视频质量的基础上同时降低了传输的码率。由于用户侧网速的限制,端上存在多个档位,当看播端网速较慢时,可能会切换到480P/720P等低分辨档位,此时会触发端上超分算法提升画面清晰度。超分辨率技术指的是,基于机器学习/深度学习方法,根据视频信息对其进行空域、时域建模重构出缺失的细节,将低分辨率的视频重建出高分辨率视频的技术。这样即使是在低分辨档位也能体验到更清晰的画质。

左:视频降噪前,右:视频降噪后

图片

左:视频超分前,右:视频超分后

图片

除此之外团队还提供大分辨率、高帧率、广色域,并使用色彩增强、自适应锐化等多种画质增强技术,呈现更加沉浸感的超高清画面。