“智感超清”之HDR技術落地實踐

語言: CN / TW / HK

本文由百度智慧雲-視訊雲音視訊處理技術架構師——邢懷飛,在百度開發者沙龍線上分享的演講內容整理而成。

內容從百度智慧視訊雲的核心競爭力:“智感超清”出發,梳理了智慧視訊雲相關的產品概念和技術。在詳細介紹了HDR技術的概念基礎上,結合相關“智感超清”能力,重點分享了HDR技術的應用實踐。

文/ 邢懷飛

整理/ 百度開發者中心

視訊回放:https://developer.baidu.com/live.html?id=7

 

本次分享的主題是:智感超清之HDR應用實踐。內容主要分為以下三個部分:

  • 智慧視訊雲3.0 & 智感超清介紹

  • HDR技術概念解析

  • “智感超清” HDR技術應用實踐

 

 

01 百度智慧視訊雲3.0&智感超清介紹

 

百度智慧視訊雲3.0介紹

上圖就是百度智慧視訊雲3.0的全景圖。可以用三句話概括:

 

第一,雲智一體化

即百度目前所有的視訊雲產品都實現了智慧化。可以看到,圖中標註的部分,“智感超清視訊處理”的核心能力就包括了:智慧編碼、智慧處理、智慧抽幀、版權保護。其中,“智感超清”是視訊處理產品的一個核心競爭力品牌。

 

第二,服務平臺化

結合底層的雲智一體的能力,我們搭建了兩個平臺:視訊創作分發平臺,視聯網感知平臺

其中,創作分發平臺面向泛媒體和泛網際網路場景,可以提供端到端一站式的視訊服務。而視聯網感知平臺,面向傳統監控產業,對視訊端裝置和泛視訊資料流進行統一接入、分析和管理。

 

第三,應用場景化

結合具體的應用場景,百度智慧視訊雲在泛網際網路、泛媒體和泛產業方向提供了定製化的智慧視訊方案覆蓋互動娛樂、內容生產、智慧分析、遠端實時通訊、生產管理、安全管理等場景。

 

“智感超清”MCP視訊處理產品

 

以上是智感超清 MCP視訊處理產品的一個功能框架圖。下面簡單介紹一下每一層的結構與內容。

 

接入層與其他雲上產品類似,MCP視訊處理產品提供兩個主要入口:Console、API&SDK。

使用者可以通過控制檯(Console)進入並進行相應的配置。而對於B端的客戶,更可以靈活地採用API/SDK的方式對產品進行訪問。

 

基本功能層:包括基礎的雲上轉碼的功能,也包括基本的視訊剪輯/拼接/截圖/字幕疊加等附件的功能。

雲上轉碼可以把使用者上傳的視訊進行一個全格式、全協議的轉換,以滿足於不同客戶場景下、不同網路情況、不同終端的適配,並可以靈活的做多碼流切換。

 

智慧視訊處理層:這部分是“智感超清”整個產品核心打造的能力。抽象出以下三個層面介紹:

  • 第一:智慧畫質提升

    通過AI的手段或其他傳統的手段對輸入的視訊進行預處理,然後再進行轉碼處理,會帶來比遠視訊更好的視覺體驗。其中,智慧HDR轉換,也是和今天分享強相關的技術。

  • 第二: 智慧老片修復

    之所以把這個門類單獨出來,是因為針對這些老片,我們需要有特定的技術進行修復,以達到升級的使用者體驗。具體功能包括:劃痕去除,噪點去除和智慧上色。

  • 第三: 智慧視訊編輯

    這一部分是基本的視訊編輯能力。包括智慧字幕、智慧去黑邊、智慧去抖動等。

     

    以上三個功能模組構成了智慧視訊處理的核心能力。 

     

智慧視訊編碼:這一層是比較底層的視訊編碼能力介紹 。

主要包括:內容指定編碼、ROI編碼、4k/8k編碼 、還包括百度自研的BD265編碼器等。

 

介紹完產品框架圖,我們再介紹一下智感超清的核心競爭力在技術上如何實現。

 

第一部分是智慧視訊處理。

智慧視訊處理的核心目標是提升畫質 。它能夠通過視訊預處理的方式使得在視訊的解析度、幀率、色深、色域等各個方面都能有一個較大提升。

 

其中比較核心的能力包括:SDR2HDR、超分、插幀。

 

在超分和插幀上都是基於AI模型目前,在超分模型上,已經研發了視訊級別的一個超分模型;在開源資料集上,已經達到了SOTA;在插幀的演算法上,也有自研的演算法,可以實現任意幀的一個插幀。

 

在智慧老片修復上,百度也和其他的單位合作,構建了一個完整的資料集。比較典型的場景如:膠片上老片的物理損傷,包括其它磁帶的一些損傷,“智感超清”產品通過對影象畫質進行多維處理,能夠在不增加視訊頻寬成本的情況下,實現畫面質量的大幅提升,打造視訊的“極質”體驗。

 

第二部分是智慧視訊編碼。

智慧視訊編碼方面,已經研發上線了AI驅動自適應的編碼。該模型可以根據視訊本身內容分析,預測出最優的視訊位元速率與解析度,並能夠與ABR協議結合,生成一組最優的編碼配置。與此同時,構建了一個數百萬場景級別的資料集,將VMAF當成視訊質量評分的一個指標。

 

不僅如此,百度還自研了BD265編碼器,開發了60多種演算法,並考慮主觀驅動的演算法去提升視訊的畫質並節省位元速率。

對比開源編碼器,BD265編碼器提升了30%的位元速率,速度上也提升了2~4倍。該編碼器參加了去年的MSU大賽,在VMAF上也達到了top2的水平。這個是我們前面對智慧視訊處理和編碼的一個簡單介紹。

 

通過前面的簡單介紹,相信大家對智慧視訊雲有一個基本的認識,並對“智感超清”產品有一個初步的瞭解。在下一章節,將給大家重點介紹HDR相關的技術。

 

 

02 HDR技術概念解析

 

什麼是HDR

 

 

HDR的特點可以用三個“更”字概括。

  • 更高的亮度範圍

    相對於 SDR來說,HDR可以達到10000nits的最高亮度。這使得它能夠更好地展示明暗對比,在亮度方面,更加貼近人眼的對物理世界的感官認知。(可以參考上圖HDR和SDR的效果對比)

     

    更廣的色彩範圍

    上圖左下角示例,是一個CIE 1931色彩空間的表達。傳統的709領域(即:高清),能夠覆蓋35.9%的色彩範圍,而到了2020領域(即:超高清),已經能夠覆蓋75.8%的色彩範圍。

     

    那麼,如何去表達這種更寬的色彩範圍呢?需要我們更高的位元也就是更高的位深去表示。

     

    這也對應了HDR的第三個特性:

  • 更深的色深(位深)

    基本上hdr都是在10位元,更高的要達到12位元才能達到。以上是我們對HDR效果的一個簡單介紹。

 

HDR端到端系統流程

之所以想介紹這個流程,是因為HDR它不是一個單點的技術概念,它涵蓋了從視訊的拍攝、製作 、視訊編碼、解碼、播放、傳輸等一系列流程。需要整個HDR技術生態上的企業相互配合,才能完成整個HDR端到端的系統。下圖形象的展示了整個系統流程:

視訊錄製(光電轉換)→後期加工(產生元資料)→獲取HDR視訊及相關的內容元資料→壓縮傳輸→解碼→顯示器顯示播放(電光轉換)

 

HDR技術相關概念

1. 光電/電光傳輸曲線

將自然界中真實場景轉換為螢幕上顯示出來的影象,需要經過兩個主要步驟:

1.  通過攝影裝置,將外界光資訊轉換為影象資訊儲存。本質上儲存為數字訊號。

2.  通過顯示裝置,將影象資訊轉換為螢幕輸出的光資訊。

 

整個過程中,資訊流要經過兩個重要的非線性對映,才能形成我們在顯示裝置上看到的影象。這兩個重要的非線性對映過程,我們又稱光電/電光傳輸曲線。

下面介紹三種常見的光電/電光傳輸曲線

  • Gamma曲線

    是一種在傳統的SDR顯示裝置上被廣泛使用的轉換曲線。

    對應的標準是:BT.1886,峰值亮度僅為100nits。

    隨著顯示裝置亮度範圍的提升、影象編碼bit depth的提升,使得傳統Gamma校正不再適用HDR的光電轉換過程。

     

  • PQ曲線

    由杜比實驗室根據Barten的人眼模型提出的電光轉換曲線。峰值亮度可以達到:10000nits。

    優點:能夠提供更高的亮度範圍。

     

  • HLG曲線

    由BBC和NHK聯合提出的光電轉換曲線。

    優點:相容SDR的顯示和播放。在廣電領域被廣泛應用。

 

2. HDR元資料

定義:描述視訊或影象處理過程中的關鍵資訊/特徵。產生於視訊的製作階段,主要包含色彩和亮度兩大方面資訊。

 

分類:按構成結構上分類,可分為靜態元資料和動態元資料。

  • 靜態元資料:視訊中採用單一的元資料去控制每一幀的色彩和細節,元資料並不會發生變化。易造成某些大動態場景的畫面暗部或者高亮細節丟失。

  • 動態元資料:視訊中的採用變化的元資料去控制每一幀的色彩和細節。通過動態元資料,我們還可以根據使用者的顯示情況,利用tone-mapping (色調對映)的演算法進行更多的適配。

 

3. HDR常見格式

前面也提到,HDR不是一個單點的技術概念,而是一個端到端的生態。從上述圖中也可以看到,HDR的格式生態十分的複雜,正是由於此,HDR的標準有些割裂,並不像視訊編碼一樣那麼清晰。若按照光電/電光傳輸曲線的種類來劃分,可以分為以下幾個大的標準型別:

  • HDR10:由美國CT組織牽頭的一個開放標準。完全開源免費。

  • HLG:是由BBC和NHK聯合開發的高動態範圍HDR的一個標準。HLG不需要元資料,能後向相容SDR。

  • HDR10+:為抗衡DolbyVision, 由三星推出的一個部分免費的標準。採用的是動態元資料。

  • DolbyVision:Dolby Vision使用基本層+增強層來實現向下的相容性。並使用動態元資料來描述所有場景。但它是一個收費標準,授權體系較為複雜。

  • HDR Vivid:是國產的一個標準。在現有傳輸曲線和色彩空間標準的基礎上,增加動態元資料的描述,開源免費且相容性好。

 

 

03 “智感超清”HDR技術應用實踐

 

典型超高清HDR應用需求

 

 

隨著5G通訊的發展,給視訊行業帶來全新的變革,對應的終端能力也越來越強,網際網路超高清應用空前爆發,這對超高清視訊的要求也越來越高。通常,我們所說的超高清視訊包括以下六要素

  • 高解析度

  • 高幀率

  • 色深解析

  • 寬色域

  • 高動態範圍

  • 全景聲音訊

這其中,4K、HDR等技術貫穿整個從採集、製作、呈現等整個端到端的流程。

 

下面看一下需要如何的技術儲備,才能實現如此端到端的流程?

HDR處理流程與需求分析

內容生產:

使用者拍攝HDR視訊上傳到雲端。在這一階段,平臺需要具備以下HDR的處理能力:

  • HDR視訊雲端編輯能力

  • SDR素材適配

  • HDR中間層(Mezz)檔案的編碼

  • 元資料的生成

  • 元資料的透傳

 

儲存(壓縮)/處理(傳輸)階段

在HDR視訊編碼和處理階段,需要以下過程:

  • HDR轉SDR。  這涉及到重要的色調對映過程。

  • 多種輸入格式自動適配。

  • SDR轉HDR。  可以通過AI的方式,將SDR轉換為HDR。

  • HDR格式互轉能力。HDR的格式多樣,能夠支援各種HDR格式互轉十分重要,如HDR10轉HLG。

  • HDR元資料的寫入、透傳。在原始HDR視訊基礎上,能否在位元速率壓縮後寫入,這也對雲端能力提出了要求。

     

HDR顯示:

在視訊播放階段,需要一定的策略在端上做相應的適配。具體來說,需要實現:

  • HDR終端視訊播放

  • SDR終端視訊播放

  • 端上自動適配

在接下來的章節,會詳細分析各項技術的實現過程。

 

HDR轉SDR

HDR轉SDR的過程實際上是一個色調對映的過程。(Tone Mapping Operator)

HDR和SDR視訊的亮度空間和色彩範圍都差別很大,這其中的轉換過程較為複雜。通俗理解,色調對映就是一個將HDR的影象或者視訊,轉換為SDR的影象,並在SDR顯示裝置正確顯示的技術。

以下是典型色調對映處理的流程:

1. 預處理

通過預處理,將影象的亮度資訊轉換為log域。

2. 影象分解

通過影象的保邊濾波器,將影象分解成基礎層和細節層。

3. 亮度資訊提

將提取出的基礎層亮度資訊通過不同的色調曲線進行壓縮,並將壓縮後的亮度資訊加在細節層上。

4. 後置處理

通過後置處理,進行顏色校正,得到SDR影象。

在色調對映過程中,最重要的是如何選擇不同的實現演算法。這需要結合實際的應用場景。

 

SDR轉HDR

SDR轉HDR也是一個十分複雜的過程,不僅僅是變換顏色空間和動態範圍,更需要考慮暗部細節增強與過曝細節的修復、對比度的提升、色調保持不變、色彩增強處理以達到HDR的要求以及通過演算法實現對噪聲的控制。

在亮度方面:希望通過SDR視訊中殘留的,過度曝光和曝光不足區域的資訊,儘可能地恢復這些區域內丟失的細節。

在色彩方面:通過SDR視訊中受限的色彩,估計出原始場景的色彩,讓恢復出的HDR視訊的色彩儘可能地接近原始場景中豐富而真實的色彩。

 

上圖可以看到傳統方法對SDR轉HDR的過程,主要是通過線性轉化的方式,對過曝/欠曝的區域進行重建。

目前AI的方法,在超分和增強領域用的非常多,由於它使用的是非線性的表達,一般認為通過AI的方法可以實現SDR轉HDR的更好效果。

 

基於AI的端到端SDR轉HDR方案

 

特點:

  1. 採用全域性/區域性資訊融合的方式。

  2. 採用Residual Connection殘差學習。

  3. Squeeze-Excitation,channer維度自注意力演算法加持。

  4. 超高清預測分辨的速度快。

     

以下是基於AI的SDR到HDR的效果展示:

 

可以看到,基於AI的SDR到HDR的轉換,在提升動態範圍的同時,還補充了曝光不足區域(陰影)的部分細節。整個畫面細節更豐富,層次更分明,整體的色彩飽和度上也有明顯的提升。

在AI模型的訓練過程中,資料的積累十分重要。這也是該方案在後續需要優化的地方。

 

HDR格式之間的轉換

HDR的格式多樣,所以能夠支援HDR格式之間相互轉換十分必要。與轉碼類似,HDR格式上也需要做一個統一分發。

要理解HDR格式相互轉換的這個過程,需要對PQ系統模型和HLG系統模型有一個深刻的理解。

1. PQ系統模型

環境光經過光光轉換曲線、逆電光轉換曲線,變換成PQ的電訊號。在顯示階段,經過電光轉換曲線,變成顯示光。

 

2. HLG系統模型

環境光經過電光轉換曲線,變換成hlg的電訊號。在顯示階段,通過逆電光轉換曲線、光光轉換曲線,變成顯示光。

HLG系統模型從流程上看,基本與PQ系統模型是相反的。

 

HEVC HDR支援

這部分以HEVC為例,重點介紹編碼在HDR上是如何承載的。

HEVC對元資料的承載包含兩個部分的重要資訊。

  • VUI資訊

     VUI是在H.264/AVC和H.265/HEVC序列引數集中攜帶的元資料元素的集合,它們共同描述了實際視訊訊號如何在樣本流記憶體儲和對映,包括編碼訊號的引數或屬性、色彩空間、傳輸曲線等。

     

  • SEI資訊 

    SEI是用來保證SDR與HDR之間的互用性的機制的方法,用於實現在接收器或者播放器中實現直接顯示或轉換顯示的過程。

    它主要包含製作的描述性資訊(或色彩容積轉換)、Tone mapping資訊、Color remapping資訊、Knee function資訊。

 

對HDR元資料的解析也是非常重要的能力。只有將原視訊的HDR元資料儲存並解析下來,才能將處理完的元資料寫入以保持HDR的效果。

“智感超清”HDR客戶落地案例

“智感超清”HDR目前已經服務各行業的客戶,滿足使用者需求。

  • 在廣電領域行業,能夠滿足使用者標清、高清到4k轉換的需求。

  • 在電影行業,通過AI技術對老片進行修復,做超高清處理,提升整個在處理過程中的效率,降低成本消耗,同時讓老舊片子真正重新煥發生命力。

  • 在新媒體行業,依託百度智感超清的諸多能力優化視訊體驗,也增加了很多視訊編輯能力,包括非線編能力,極大的提升編輯在創作內容過程中的效果。

  • 在網際網路領域,服務於網際網路視訊使用者,一方面提升了視訊質量,另一方面降低了頻寬成本 解決UGC場景下視訊質量較差的問題。

 

以上是老師的全部分享內容。如有任何疑問,可以在留言區提出。