2022年中國實時音視頻行業研究報告

語言: CN / TW / HK

核心摘要:

發展背景:網絡基礎設施升級、音視頻傳輸技術迭代、WebRTC開源等因素,驅動音視頻服務時延逐漸降低,使實時音視頻(RTC)技術成為炙手可熱的研究方向。實時音視頻業務在消費互聯網領域蓬勃發展,並逐漸向產業互聯網領域加速滲透。經歷了行業第一輪的紅利爆發期, 我國實時音視頻行業的場景效能逐漸深化,步入到理性增長階段。

市場規模:2021年中國實時音視頻(RTC)PaaS市場規模為16億元,消費互聯網領域為實時音視頻行業貢獻了核心收入來源。受到社交娛樂頭部應用的高度滲透及“雙減”政策的持續影響,預計未來三年的複合增長率為28.4%, 2024年實時音視頻(RTC)PaaS市場規模將達到30億元。

競爭格局:實時音視頻賽道玩家的主要競爭策略分為兩大類:(1) 提供通用的PaaS層能力 ,包括RTC PaaS廠商、通信雲PaaS廠商、綜合型IaaS廠商。其中, RTC PaaS廠商在技術研發和產品打磨上具備更高的行業專注度 ,佔據市場的主導地位;(2) 根植於特定行業場景 ,主要為垂直行業解決方案商。

核心技術:實時音視頻行業存在較高的資源門檻與技術壁壘。主要包括:軟件定義的實時音視頻傳輸網絡(Real-time Network, RTN),基於UDP的協議層優化,以及弱網傳輸保障策略。在實際應用中, RTC與CDN技術的融合,衍生出 實時互動直播、超低延時直播 兩大技術路徑。

趨勢洞察:實時音視頻標準化工作的推進將引導行業邁向更高的服務質量,推動PaaS層廠商與垂直行業解決方案商之間的良性競爭與協作共贏。同時,實時音視頻逐漸向 實時互動領域的延展 ,元宇宙相關應用的出現將為消費互聯網創造更大的想象空間。此外,實時音視頻技術有望成為我國泛娛樂出海企業的差異化競爭機會, 海外業務版圖的擴大 也將驅動行業迎來新一輪的業務增長。

中國實時音視頻行業發展分析

音視頻消費習慣的遷移

用户音視頻習慣養成,並逐漸向強實時性、強互動性場景延伸

富媒體信息時代,音視頻已成為人們獲取、發佈、交換信息的重要方式。截至 2020年底,中國網絡視聽用户佔整體網民規模的比例已高達95.4%。 高飽和的滲透率水平,使用户更加關注音視頻服務的體驗感。得益於底座能力與關鍵技術的持續突破,音視頻服務體系實現了從點播、直播到實時音視頻的深化發展。實時性與互動性的長足優化,逐步激活了更多場景下的音視頻互動模式,驅動用户的音視頻消費習慣向更加還原真實、更加沉浸式的實時音視頻服務遷移。同時,伴隨疫情的常態化發展,人們遠程辦理業務的習慣已逐漸養成。實時音視頻作為一種通用型能力,撬動了傳統行業中眾多強實時、強互動場景的數字化升級,也使得實時音視頻的消費趨勢進一步從消費互聯網向產業互聯網延伸發展。

網絡基礎設施持續升級

高速泛在的骨幹網絡,為實時音視頻傳輸提供堅實保障

實時音視頻行業的高速發展離不開國家骨幹網絡的建設。以千兆光網和5G為代表的“雙千兆”網絡,近年來取得突破性進展。2021年,我國光纖接入(FTTH/O)端口已達到對互聯網寬帶端口的高度覆蓋,光纖接入能力已普遍超過百兆,並向千兆以上速率不斷升級;5G網絡已覆蓋國內所有地級以上城市,5G基站數累計高達142.5萬,用户數佔全球的89%。網絡基礎設施的廣泛滲透,使更多用户可以受益於終端設備與骨幹網絡之間的快速連接,享受到無感接入、觸手可及的高質量網絡服務。同時,“雙千兆”網絡在帶寬能力上的顯著提升,可大幅降低音視頻信息的延遲和緩衝時間,提高端到端毫秒級傳輸時延的滿足率,為實時音視頻的數據傳輸與落地應用提供良好的底層網絡支撐。

音視頻傳輸技術更新迭代

技術驅動音視頻走向實時,流媒體協議邁入毫秒級傳輸階段

流媒體技術可將壓縮處理後的音頻、影像連續性地上傳到網站服務器,使文件無需完全下載到本地即可觀看。在編解碼方面,H.265、國產AVS3等視頻解編碼技術可以使文件的壓縮體積更小、傳輸速度更快。其中,AVS3作為全球首個面向5G產業應用的音視頻信源編碼標準,已被成功納入DVB(數字視頻廣播組織)標準體系,可以在同等畫面質量下比H.265節省40.09%的碼率。在協議方面,基於TCP的RTMP、HLS、DASH等協議的優化方案仍存在2-3秒左右的延遲,而基於UDP的WebRTC則突破性地將延遲降低至毫秒級別。與其他協議不同,WebRTC作為流媒體通信框架,覆蓋音視頻採集、編解碼、傳輸和渲染的全部環節,可以為實時音視頻提供全流程的理論依據與技術支持。

商用方案成為行業主流

WebRTC奠定技術框架,在基礎上演化出第三方服務商

WebRTC是目前實時音視頻領域最流行的開源框架。2010年Google收購GIPS引擎後,將其納入Chrome體系且開源後,命名為“WebRTC”。WebRTC獲得各大瀏覽器廠商的支持並納入W3C標準,促進了實時音視頻在移動互聯網應用中的普及。2021年1月,W3C和IETF兩大標準制定組織宣佈WebRTC成為官方標準,用户無需下載額外組件或單獨的應用程序,便可以支持在網絡上的實時音視頻通信。儘管WebRTC具有免費開源的特性,但其龐大、繁雜,學習門檻高,又缺乏服務器方案的設計和部署,為基於WebRTC搭建的商用方案留下了發展空間。第三方的RTC PaaS廠商憑藉規模效應和技術優勢成為開發者的首選,推動實時音視頻行業進入發展的快車道。

中國實時音視頻行業發展階段

行業潛力逐漸釋放,目前處於場景深化階段的發展中期

WebRTC開源以及移動互聯網的快速發展,使實時音視頻技術成為炙手可熱的探索方向。順應用户音視頻消費習慣,市場參與者在消費互聯網場景的積極實踐,拉動了實時音視頻行業的第一輪快速增長。當前,我國實時音視頻行業正處於場景深化階段的發展中期,市場前期的良好鋪墊疊加疫情帶來的遠程協作需求,使實時音視頻技術在產業互聯網場景加速滲透。未來,伴隨着行業標準的不斷完善,實時互動場景的沉浸式提升,以及海外業務版圖的持續擴張,我國實時音視頻的行業效能有望迎來新一輪的爆發式增長。

中國實時音視頻市場競爭分析

RTC PaaS廠商憑藉產品和技術實力佔據市場主導地位

根據廠商聚焦的業務重心和發展實時音視頻業務的主要邏輯,可將實時音視頻賽道的玩家分為RTC PaaS廠商、通信雲PaaS廠商、綜合型IaaS廠商及垂直行業解決方案商四類。其中前三者以提供通用的PaaS層能力為主,第四類根植於特定行業場景,更傾向於輸出PaaS+SaaS的一站式解決方案。就PaaS層而言,RTC PaaS廠商的業務專注度最高,在技術研發和產品打磨上能夠投入足夠的精力,相比其他類型的玩家也具有一定的先發優勢,佔據了目前市場的主要地位。

中國實時音視頻產業圖譜

中國實時音視頻商業模式

以基礎服務+增值服務,搭建完整互動體驗,賦能業務增長

以RTC私有協議推流和拉流的實時音視頻服務採用按時長計費模式。實時音視頻廠商在選用不同計費方式之上,還會疊加月度免費時長、套餐包、梯度折扣等組合優惠方式。伴隨着應用場景的延伸發展,實時音視頻廠商也會採取自主研發或與第三方合作的方式,不斷充實自身產品能力矩陣。三網融合類、安全監測類、體驗增強類增值服務的拓展,保障了實時音視頻服務可用性、可靠性、可玩性,賦予用户更加完整豐富的實時互動體驗。

中國實時音視頻廠商盈利能力分析

資源成本及研發投入水平較高,PaaS廠商毛利率均值約30%

實時音視頻行業存在較高的資源門檻與技術門檻:PaaS廠商不僅需要在底層網絡建設上投入一定的資源成本,還需要在策略算法優化和產品矩陣打磨上投入大量的研發成本。正是因為行業門檻的存在,實時音視頻行業的市場格局較為集中,頭部PaaS廠商對於產品價格具備較強的話語權,尚未存在“價格戰”。同時,高水平的成本引入,也使實時音視頻的產品價格遠高於傳統音視頻產品。整體看來,實時音視頻(RTC)PaaS廠商的毛利率均值約在30%左右,受資源稟賦及研發能力的不同的影響,不同廠商的成本結構及毛利率水平會存在一定差異。

中國實時音視頻行業市場規模

預計到2024年,實時音視頻PaaS市場規模將達到30億元

儘管實時音視頻服務已經開始呈現出向多行業領域滲透的趨勢,但就現階段而言,以PaaS為主要服務模式的消費互聯網領域仍然貢獻了最核心的收入來源。根據艾瑞諮詢測算,2021年中國實時音視頻(RTC)PaaS市場規模為16億元,同比增長10.3%。相較過去幾年的高速增長,2021年增速回落的原因主要有兩個方面:1)受“雙減”政策影響,在線教育領域的收入驟降,2)社交娛樂場景中,實時音視頻在頭部互聯網應用的滲透率已經較高,由高速增長階段進入平穩增長階段。疫情於實時音視頻無疑起到了重要的市場教育作用,預計未來宏觀經濟形勢轉好後,實時音視頻將有望在越來越多的產業互聯網領域實現落地,同時元宇宙相關應用的出現也將為消費互聯網創造更大的想象空間。

供給側:實時音視頻行業發展能力洞察

實時音視頻核心價值及關鍵技術總覽

傳輸網絡保障低延時、高可靠傳輸,專業組件提升媒體質量

實時音視頻相比直播最大的區別在於對端到端時延的降低。在傳統直播架構下,時延主要來自於CDN分發和下行拉流環節。而通過搭建面向實時音視頻的傳輸網絡,應用低延時傳輸協議,並輔以弱網傳輸保障策略,實時音視頻實現了低延時、高可靠的音視頻傳輸。在音視頻引擎方面,典型的實時音視頻場景以溝通交流為核心訴求,對音頻的質量關注度較高;而隨着實時音視頻向實時互動場景拓展,其對降噪、超分等視頻畫質修復增強的要求也不斷提升。

實時音視頻傳輸網絡

軟件定義的去中心化網絡,依託智能路由算法選擇最佳路徑

實時音視頻傳輸網絡(Real-time Network, RTN)是專為實時通信設計的穩定、高質量的傳輸網絡。通常而言,實時音視頻傳輸網絡架構在公共互聯網之上,採用軟件定義網絡的方式進行網絡虛擬化,專注於通信路由的計算和鏈路異常的故障恢復。其控制面主要負責網絡質量探測、路徑規劃和規則配置管理,數據面負責數據傳輸和轉發,承擔邊緣和中轉的角色。基於去中心化的架構設計,實時音視頻傳輸網絡允許終端用户從邊緣節點就近接入,並利用智能路由算法實時計算最優的路徑傳輸,有效解決路由鏈路和帶寬成本的問題。

網絡傳輸協議的選擇

基於UDP協議的可靠性優化,為弱網對抗策略提供依據

傳輸層協議的選擇:TCP是犧牲傳輸實時性來換取數據完整性的可靠傳輸協議。弱網環境下,其在數據傳輸前的“三次握手”連接會帶來較大延時。而UDP作為不可靠的傳輸協議,其最大的優點為高實時性,但不保證數據的到達和排序。實時音視頻產品往往採用UDP協議,並在此之上進行協議層與算法層的優化,來提高傳輸的可靠性與邏輯性。

UDP協議的優化:UDP協議往往和RTP/RTCP協議一起在實際應用中出現。RTP負責數據傳輸,其協議頭中的序列號、端口類型、時間戳等字段,可為數據包的分組、組裝、排序提供邏輯依據;RTCP作為RTP的控制協議,負責對RTP的傳輸質量進行統計反饋,併為弱網對抗策略提供控制參數。

弱網傳輸保障策略:丟包恢復

聯動接收端與發送端的“重傳+編碼”配合策略

弱網環境下,實時音視頻在網絡傳輸側的丟包恢復技術主要包括:自動重傳請求(ARQ-NACK)、宂餘編碼(FEC/RED)、I 幀申請(PLI/FIR)等。實際應用中通常採用ARQ-NACK技術先行,FEC技術兜底的配合策略。並根據NACK成功率、NACK響應時長和FEC恢復率,對整體的抗丟包策略進行實時、動態的調整。具體的技術原理及應用的優缺點如下:

弱網傳輸保障策略:抖動對抗

根據網絡環境自適應緩存,平滑終端流暢體驗

雖然丟包恢復算法可以增強弱網環境中數據傳輸的容錯性,但難以解決因網絡抖動、解碼前各環節抖動帶來的亂序、延遲到達等問題,此時往往需要JitterBuffer(抖動緩衝區)來做媒體包的緩存。WebRTC的視頻引擎、聲音引擎中均包含自適應緩衝模塊,一方面可以把收到的亂序媒體包進行排序、組幀;另一方面可以根據網絡環境動態調整端到端的緩存時間,通過讓步適當的延遲來換取音視頻通話的流暢性。打造優秀JitterBuffer的難點在於如何快速、準確地計算網絡環境的非穩態變化(包括網絡帶來的抖動和抗丟包等算法引入的額外延遲),並在延遲和卡頓之間取得較好的平衡。

弱網傳輸保障策略:碼率自適應

根據接收端帶寬情況,針對性推送適合碼流

丟包恢復、抖動對抗策略可以在有限的帶寬下,提供更好的音視頻質量,但難以解決多人互動場景下,單一碼流無法適應多接收端網絡帶寬狀況不一的問題。傳統多人互動方案中,網絡帶寬較差的用户往往會影響所有參與者的體驗。而動態碼率策略雖然對發送端的帶寬要求較高,但可以根據接收端的帶寬狀況,調整傳輸的數據量,向接收端推送合適的視頻流。對網絡質量好的用户,傳輸高清晰度的流;反之,則傳輸低清晰度的流。視頻流的碼率自適應技術主要包括:多碼流切換(Simulcast)和可伸縮編碼(SVC)。

實時音視頻技術路徑分析

多人實時互動方案:RTC技術為主,CDN技術為輔

多人音視頻通話:通過接入RTC SDK,同一個頻道/房間內的用户可以通過RTC私有協議,推流至實時音視頻傳輸網絡(RTN),並從RTC地址拉取訂閲的音視頻流,享受穩定流暢的1v1或多人實時音視頻通話服務。

實時互動直播:互動直播增加了主播、連麥者、觀眾的角色概念,連麥者既可以是房間內的觀眾,也可以是其他房間的主播。在核心互動端,主播和連麥者通過RTC地址推送自己的音視頻流,並拉取他人的音視頻流。連麥內容會通過旁路系統在雲端將混為一路流,並轉碼為傳統直播協議供觀眾端使用CDN地址進行拉流觀看。觀眾請求上麥成功後,將從CDN地址切換到RTC地址進行互動。

超低延時直播:對傳統直播架構在協議和網絡層面進行改造

超低延時直播是近年來新興起的一類應用。如電商直播、賽事直播等場景,兼具高併發與低延時的特性,傳統直播3-20s的時延難以滿足其需求,但對實時互動的要求又不及視頻會議等典型的實時音視頻應用,無需將時延降低至400ms以下。為此,超低延時直播融合了傳統直播與實時音視頻的技術架構,通過取長補短的方式實現了介於二者之間的端到端時延。

儘管針對超低延時直播廠商尚無一套標準的技術路徑,但大體可以歸納為拉流協議、網絡架構和推流協議三個方面的改造,在實際應用過程中,廠商會平衡成本及性能指標等因素,在不同的協議和網絡架構之間進行選擇。

需求側:垂直行業實時音頻應用實踐分析

中國實時音視頻行業應用概覽

實時音視頻商用實踐從消費互聯網向產業互聯網逐漸滲透

以泛娛樂、在線教育為代表的消費互聯網場景,具備實時音視頻發展的良好應用基礎和價值前景,是實時音視頻商用實踐的主力領域。伴隨產業數字化轉型的加速,協同辦公作為全行業的通用型解決方案,已經成為後疫情時代企業的必備能力;實時音視頻在金融、醫療等傳統行業重點場景的應用效能也在逐漸擴大。雖然IoT行業眾多場景的實時音視頻應用基礎尚未成熟,但是其在工業巡檢、自動駕駛等領域具備廣闊發展前景,是實時音視頻行業的未來發展方向。

社交娛樂實時音視頻需求及實踐

實時音視頻激活互動新玩法,多場景聯動釋放業務增長空間

公眾社交娛樂需求的不斷釋放與滿足,使行業內存量用户的競爭加劇,獲客留客的成本攀升。產品同質化趨勢下,互動體驗升級與新潮互動模式挖掘的重要性愈加凸顯。實時音視頻技術與社交娛樂場景具有天然契合度,不僅可以直接提升現有產品的基礎屬性,還可以融合空間音頻、VR、AR等技術,給予用户沉浸式的實時互動體驗。此外,實時音視頻技術還使得在線合唱、一起看直播等強實時場景成為可能,並有助於直播、社交、遊戲類場景間的融合。融合過程中激發出的互動新玩法,有助於拉昇用户活躍、留存、使用時長等業務數據,並拓展產品的付費場景,提升產品的營收能力。

教育行業實時音視頻需求及實踐

強調師生的實時互動,疊加豐富的教學工具提升教學質量

教育行業分為校外培訓和校內的教育信息化兩個部分,其中校外培訓受到“雙減”政策的影響,各機構紛紛轉向素質教育、成人教育、職業培訓等細分賽道,教育信息化迎來政策和需求的雙重利好,利用以音視頻為核心的手段促進教育公平、提升教學質量已是大勢所趨。於教育行業而言,實時音視頻的應用涉及1v1、小班課、互動大班課、雙師課堂等多種場景,不同場景在延時、併發上的需求各異,廠商應針對具體的場景需求提供不同的解決方案以實現清晰流暢的音視頻體驗。此外,教育行業對白板互動、在線問答、課件演示等互動工具存在剛需,廠商需提供豐富的功能以幫助提升教學質量。

協同辦公實時音視頻需求及實踐

以視頻會議為核心向協同辦公延伸,解決遠程異地辦公需求

實時音視頻在協同辦公場景中的應用主要體現在視頻會議上。新冠疫情的出現推動了雲視頻會議在各行業領域的滲透,現如今,雲視頻會議已經成為混合辦公模式下的重要抓手。不同會議場景下的環境空間、硬件設施、參會人員存在差異,可能出現的音畫問題也各不相同,如小會議室內同時開麥會造成嘯聲嚴重,大會議室距離入會設備較遠的人聲難以聽清,容易出現混響。廠商需能針對不同場景提供高清流暢的音視頻會議體驗,同時滿足PC、智能手機、會議平板等多種終端的接入需要。在此基礎上,可疊加包括會前準備、會中協作、會後管理在內的產品能力,輔助企業進行遠程異地的協同辦公。

金融行業實時音視頻需求及實踐

聯動線上線下優勢能力,實時音視頻突破金融服務物理邊界

新冠疫情加速了金融行業的“離櫃化”,線下網點的經營成本愈顯沉重;雖然,線上互聯網模式更具備便捷性與盈利性,但在客情管理、業務支撐方面的能力有限。因此,金融機構亟需一個能夠融合線上、線下服務優勢的新渠道。依託實時音視頻技術打造的遠程服務場景,打破了金融服務的時空邊界,可有效支撐網點業務的線上化;同時,坐席專業團隊的業務引導、交叉營銷、客情管理等服務,可給予客户有温度的數字服務體驗。通過靈活調節遠程坐席與線上、線下渠道的連接布放,可以較大程度提升金融機構的運轉效能。

醫療行業實時音視頻需求及實踐

推動醫療服務下沉與資源分級協作,針對性解決就醫難題

優質醫療資源分佈不均、基層醫療資源利用不充分、問診流程宂長複雜,始終是患者“看病難、看病煩”的根源問題。同時,由於專業屬性較強、合規要求嚴格,醫療行業的協作壁壘較高,醫療體系內部也長期存在資源互動困難、遠程協作低效等難題。實時音視頻作為醫療行業數字化轉型的重要能力,可以為慢性病、常見病和部分專病患者提供診前諮詢、診中判斷、診後回訪的全流程醫療服務,免去線下就醫的諸多困擾。同時,實時音視頻技術在遠程會診、遠程協診、遠程影像方面的應用,不僅可以促進更加高效的醫醫協作模式,還可以推動醫聯體內醫療資源的分級協同與廣泛下沉。

IoT行業實時音視頻需求及實踐

從消費級應用的實時通信向產業級應用的遠程控制滲透

根據艾瑞諮詢測算,預計到2023年中國物聯網連接量將達到125億個。隨着萬物互聯的時代來臨,實時音視頻正作為終端設備的“眼睛”和“耳朵”加速向IoT行業滲透。IoT領域具有多樣化、碎片化的特徵,存在很多專為特定行業、特定場景所服務的設備。因此,實時音視頻廠商不僅要同主流音視頻芯片廠商合作,還需要支持客户側對定製化硬件平台的對接需求。IoT行業的應用大體遵循從消費級向產業級滲透的路徑,需求重點由實時通信向遠程控制升級,對性能、功耗、包體等各方面的要求也不斷提升。

中國實時音視頻行業發展趨勢

標準化工作推動市場良性競爭

量化實時音視頻服務質量,賽道准入門檻不斷提升

實時音視頻領域一直以來處於行業標準缺失的狀態中,對於服務質量和用户體驗是否達標、不同類型的產品或場景能夠接受的數據指標等都沒有統一的評判標準,在一定程度上阻礙了行業的健康發展。2022年5月,中國信通院啟動了“音視頻+”系列規範標準的編制工作,實時音視頻作為其中的重要組成部分,針對其基礎能力的相關標準已經初步成型。標準化工作的推進將引導實時音視頻行業邁向更高的服務質量,亦會推動PaaS層廠商與垂直行業解決方案商之間的協作共贏。

以實時互動為基點向元宇宙進階

連通虛擬與現實世界,沉浸式交互拓寬實時音視頻想象空間

當前實時音視頻在泛娛樂場景中的滲透正逐漸趨於飽和,隨着音視頻基礎設施屬性的顯現,實時音視頻也開始憑藉“實時”的標籤向更廣泛的實時互動領域拓展,延伸其場景邊界。音視頻技術、傳輸技術的發展演進讓實時音視頻在實時性、沉浸式方面的表現不斷提升,實時互動的價值將超越了最基本的交流通訊,通過疊加VR、AR及各類交互技術,成為連通虛擬世界與現實世界的橋樑。未來,實時音視頻將以實時互動的能力為基點,深入到虛擬主播、虛擬會議等元宇宙應用中。

本文來自微信公眾號 “艾瑞諮詢”(ID:iresearch-) ,作者:艾瑞,36氪經授權發佈。