抖音智創語音團隊三維菁彩聲助力總枱中秋晚會沉浸式直播

語言: CN / TW / HK

Audio Vivid是自主知識產權的三維聲技術標準

2022年中央廣播電視總枱中秋晚會首次採用三維菁彩聲 (Audio Vivid)進行製作,通過“百城千屏”超高清公共大屏傳播體系進行播出。9月10日在廣場的大屏上觀看中秋晚會的市民,不僅可看到纖毫畢現的超高清視頻,還可以戴上耳機通過“雲聽”客户端收聽到與公共大屏超高清視頻同步的三維聲版本的菁彩聲,感受中秋晚會現場的震撼效果。

三維菁彩聲 (Audio Vivid)是自主知識產權的三維聲技術標準,並以世界超高清視頻產業聯盟(UWA)團體標準發佈。而總枱的中秋晚會是三維菁彩聲 (Audio Vivid)首次面向公眾提供服務。

沉浸式的空間音頻對比傳統的立體聲擁有更好的空間呈現效果,能精準地再現每個音源的位置和所處環境的空間信息。空間音頻的帶來的沉浸式體驗已經在影視、音樂等場景有廣泛的應用,例如常見的全景聲、環繞聲等技術都是利用多個外接音箱設備構成5.1, 7.1.4等音箱播放系統來實現空間音頻的回放。但昂貴的設備和嚴苛的環境要求阻礙了大眾對空間音頻沉浸式體驗的追求。

抖音集團作為UWA成員深度參與了三維菁彩聲 (Audio Vivid)標準的制定和開發,旗下智能創作語音團隊SAMI(Speech, Audio and Music Intelligence)貢獻並開源了一整套元數據系統和三維聲雙耳渲染引擎。讓聽眾帶上耳機就可以身臨其境地感受錄製現場震撼的三維聲場聽音感受。

雙耳渲染示意圖

如果結合設備的頭部追蹤能力(比如耳機或者頭戴VR\AR設備中的陀螺儀等)還可以實現聲場的跟隨旋轉,大幅提升臨場感。開啟空間音頻雙耳聲的渲染,音頻的空間感得到了體現。隨着頭動,聲音隨畫面在空間中的移動變化都能夠通過雙耳聲渲染引擎實時渲染,讓人有一種置身影院之中的感覺。

同時,三維聲雙耳渲染技術也可以應用在遊戲中,提高音頻的表現力,使遊戲中的虛擬世界的內容更加真實和震撼。

抖音智創語音團隊的三維聲雙耳渲染引擎支持環繞聲、FOA、HOA、基於對象等沉浸式音源格式的實時雙耳聲渲染。整個渲染引擎流程如下圖所示:

三維聲渲染引擎流程圖

利用元數據和音頻信息,三維聲雙耳渲染引擎可以在移動端上實現同時最多128路對象的雙耳聲實時渲染,或者從1到7階的Ambisonic格式的渲染。

為了滿足直播、互動等場景低延遲、低功耗、高沉浸且統一的音頻渲染要求。三維聲雙耳渲染引擎通過一系列自主研發的沉浸式渲染算法,對三維聲場進行精細的重構,並對雙耳聲還原模式做了一系列的效果和性能優化。讓原本需要多聲道的音箱系統才能體驗的三維空間感能用耳機就可以感受,三維沉浸式的空間音頻體驗從此不用再受硬件的限制。同時也期待更多的影視、音樂等作品能採用三維菁彩聲 (Audio Vivid)來製作,一起豐富沉浸式的音視頻內容體驗。

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

「其他文章」