我用ChatGPT做直播技術選型,卷死了同事

語言: CN / TW / HK

參加掘金活動“開啟掘金成長之旅!這是我參與「掘金日新計劃 · 2 月更文挑戰」的第1天,點擊查看活動詳情

摘要

近兩年即時通訊/直播產品炙手可熱,市場上針對ToB的產品日益增多,企業該如何去選型呢?本文分享了筆者對於直播產品的思考,將從直播SDK實例功能特性、常見業務場景、注意事項及最佳實踐等方面介紹如何進行實例選型,旨在幫助您瞭解應如何結合實際業務場景選購音視頻產品。

前言

近期,ChatGPT火遍全球,作為衝浪第一線的開發者可不能錯過。剛好在做“音視頻技術選型”的調研,不如找ChatGPT來聊聊,看看它怎麼回答?

在同質化競爭如此激烈的今天,雖然各廠商都有自己的差異化優勢,但開發者在選型時並沒有識別或對比出差異,要想實現直播產品穩定使用的目的,在直播選型的時候有個好的開始是非常必要的。相信很多企業或團隊在選型時面臨過以下問題

  • 各家廠商直播SDK差異都有哪些?
  • 什麼樣的直播SDK才適合自己的企業或團隊?
  • 直播SDK接入之後的落地情況怎麼樣?

下面結合企業立場來推導直播SDK產品選型的核心要素,以市面上幾家廠商為例便於大家更全面的對比權衡,希望對面臨選型的開發者有所幫助。

實例選型分析過程如下圖所示:

暫時無法在飛書文檔外展示此內容

一、自研還是第三方服務?

對於開發者來説,開發一款產品首先面臨的第一個選擇就是:自研還是使用第三方音視頻服務?目前大部分專注於業務的公司都會使用第三方音視頻服務,少部分大廠後期會選擇自主研發。特別一些技術門檻高、行業專業度高的模塊還是會採購第三方音視頻服務,例:強互動性的多人實時連麥。

自主研發與使用第三方音視頻服務優缺點如下:

| | 第三方音視頻服務 | 自主研發 | | ---------- | ----------------------------------------- | -------------------------------------- | | 團隊建設成本/難度 | 低 | 高 | | 業務上線週期 | 接入sdk可快速上線 | 搭建音視頻技術體系長則3~5年,最短週期也需半年 | | 音視頻體驗 | 業務實現效果較優,經過大量市場用户驗證 | 短期內效果一般,很難跟第三方SDK對比,頭部客户例抖音前期也是使用第三方廠商 | | 團隊使用業務變化能力 | 高,多年技術積累、多種場景解決方案 | 差,需不斷學習新技術、學習週期長 | | 業務差異化新需求 | 中,可通過選型成熟的廠商提供場景解決方案或專業定製化方案解決。例:即構、騰訊雲團隊 | 高,可按需定製、個性化調整 | | 投入費用 | 低,根據實際業務規模按需付費 | 高,研發人力、運營維護成本 |

綜上,若處於業務早期初創開發團隊,要求快速上線、專注業務、同時業務方向不穩定,同時業務方向為社交娛樂、遠程辦公、在線教育等常規類應用,建議選擇第三方音視頻SDK快速集成。

第三方直播SDK服務的價值在於:為開發者提供實現音視頻能力的一站式技術方案,目的在於可以降低 App 開發的技術門檻、人力和研發成本、提升開發效率。

下面我將針對“如何選型一款好的直播SDK”展開聊聊,分享選型的方法和避坑經驗。

二、如何選型?

音視頻技術可以賦能上百種應用場景,開發者該如何選擇最友好的音視頻廠商成為一大課題,開發者需要了解實時音視頻技術選型中的坑,以便提高開發集成效率。可從以下6個方向進行綜合考慮。

選大廠還是垂直領域的音視頻廠商?

雲計算大廠一般都提供laas到paas、saas的整體服務,在銷售laas服務時搭配音視頻服務。產品生態較豐富,不僅音視頻能力,還有CDN、推送、測試等服務,提供一整套從laas到paas的服務,開發者可一站式採購較為省事。

垂直廠商因經驗積累、技術專注、研發實力全部all in在音視頻賽道。故優勢在於:更聚焦通訊和視頻雲,更注重PaaS平台本身的服務,提供更專業的一體化產品與服務。比如:垂直廠商即構去年發佈了Express SDK3.0&星圖,由實時通訊RTC全面升級成實時互動RTI,實現了能力與服務的新跨越。畫質、音質增益更顯著,終端客户體驗全面升級、場景適用更多元豐富...

RTI代表一切實時互動場景下所需的產品和技術能力綜合,包含RTC+IM+直播+Avatar+AI+狀態同步等,更強調互動。適用於元宇宙、社交娛樂、辦公會議、電商直播、遊戲競技等場景,滿足開發者快速搭建對應場景的音視頻應用,實現業務快速增長。

雲計算大廠跟垂直音視頻廠商各有優勢,開發者可結合實際業務需求從技術、產品、服務等多個維度綜合考慮。

三、好的SDK的衡量標準?

基於多年的音視頻開發經驗以及結合身邊開發者的反饋,音視頻SDK的產品核心功能是選型的關鍵,以下有一份功能自檢清單。

一個好的 SDK 的衡量標準有以下幾點:產品功能生態完整性,技術指標相對強弱,解決方案成熟度,成功案例/合作客户數等。

四、產品功能生態的完整性

第一步開發者需明確:需應用在什麼業務場景?核心實現什麼能力?

音視頻在各行各業的應用越來越廣泛,成為互聯網產品的標配。有大家熟知的消費互聯網領域,近幾年疫情帶來的遠程交流協作的需求,使實時音視頻在產業互聯網場景加速滲透。比如:遠程交流、協作,企業數字化與工業數字化場景...

隨着音視頻技術迅速發展,除基礎音視頻能力外各大廠商推出多種新穎玩法。下面列舉主流場景中所需的音視頻能力要求,按基礎、進階、特色三個維度進行分類,便於開發者查閲。

社交娛樂場景

消費互聯網領域是音視頻技術滲透最廣泛的場景,音視頻功能成為社交娛樂產品的標配。

社交娛樂領域的場景含:語聊房、在線KTV、秀場直播、社交小遊戲等,將社交娛樂所需功能分為:基礎功能、進階功能、特色功能。市面上的SDK基本都覆蓋了基礎功能,隨着社交娛樂場景的發展,對互動/玩法上衍生了更多要求。如在線K歌場景需正版曲庫,秀場直播場景更看重主播與用户之間的互動,實時消息,送禮物,VIP用户權益等。

| | 產品功能 | 功能描述 | 業務場景 | | ------- | -------------------------------------------------------------------------------------- | ------------------------------------------------ | -------------------------------------------------------------- | | 基礎功能 | 音視頻通話 | 用户加入同一個房間,並進行音視頻通話。 | 1v1 視頻通話多人視頻會議 | | 音視頻直播 | 同一個房間,包含主播及觀眾,主播可以進行音視頻直播,該房間內的觀眾可以觀看直播。 | 秀場直播遊戲直播電商直播 | | | 進階功能 | 直播連麥 | 一個房間內,可以出現多個主播,進行同屏連麥直播。 | 多主播跨區連麥多人 KTV 合唱多人連麥直播 | | 房間實時消息 | 實時消息主要提供純文本消息的收發功能,可向同一房間內的其他用户發送廣播消息和彈幕消息,或者對某些指定用户發送自定義消息,並可以根據需要自行實現點贊、送禮物、答題等互動功能。 | 秀場直播語聊房 | | | 特色功能 | 變聲 | 通過改變用户的音調,使輸出的聲音在感官上與原始聲音不同。如男聲變女聲、機器人音效、外國人音效等。 | 匿名社交遊戲娛樂角色扮演 | | 音樂版權/音效 | 支持通過獲取正版曲庫資源,播放背景音樂,並展示變聲混響多種趣味效果。 | 在線KTV | | | 美顏美型 | 基於 AI 視覺服務,提供美白、磨皮、鋭化、紅潤等基礎的美顏功能,支持大眼、瘦臉、小嘴、亮眼、白牙、瘦鼻等美型效果,打造獨特自然的直播效果。 | 秀場直播音視頻通話社交小遊戲 | | | 送禮物 | 支持用户向房間內主播或其他指定用户贈送禮物。 | 秀場直播社交小遊戲 | | | 小遊戲 | 提供直播間內的實時PVP、語音互動、桌遊、秀場互動等多種小遊戲類型,助力客户提高產品活躍、留存、使用時長及營收能力 | 社交+小遊戲 | |

在線教育場景

在線教育領域的場景含:職業教育、K12教育、素質教育、學歷考試等,在線教育場景因比較成熟,各細分場景的功能要求也比較相似,圍繞着老師與學生在教學過程中的互動,豐富課堂內容提升教學質量。如屏幕共享、超級白板等功能。

| | SDK 或服務 | 功能描述 | 業務場景 | | ------ | ------------------------------------------ | ------------------------------------------------------------- | -------------------- | | 基礎功能 | 實時音頻 | 為課堂裏的教師和學生提供實時的音視頻互動功能。 | 職業教育、K12教育、素質教育、學歷考試 | | 實時音視頻 | 提供高清流暢、多平台互通、低延遲、高併發的音視頻服務。 | 職業教育、K12教育、素質教育、學歷考試 | | | 屏幕共享 | 教師能與學生之間共享課件,豐富課堂教學內容。 | 職業教育、K12教育、素質教育、學歷考試 | | | 文件共享 | 能將主流的文件格式類型轉碼為平台無關的格式,並無損還原原文檔內容、格式、佈局、動畫。 | 職業教育、K12教育、素質教育、學歷考試 | | | 進階功能 | 超級白板 | 能提供實時的白板互動,做到音畫同步,提高課堂教學質量。 | 職業教育、K12教育、素質教育、學歷考試 | | 雲端錄製回放 | 快速實現音視頻通話及會議直播的錄製功能,支持錄製回放 | 職業教育、K12教育、素質教育、學歷考試 | | | 即時通訊IM | 豐富的 API 接口,快速實現單聊、羣聊、房間、系統通知能力 | 職業教育、K12教育、素質教育、學歷考試 | | | 特色功能 | AI美聲美顏 | 基於領先的 AI 算法,提供包括美顏、美型、美粧、濾鏡、貼紙、智能分割、人臉檢測等功能,實現美顏實時渲染,打造自然美顏效果 | 職業教育、K12教育、素質教育、學歷考試 | | 百萬大房間 | 房間內支持百萬用户同時觀看直播,秒級平滑擴容 | 職業教育、K12教育、素質教育、學歷考試 | |

元宇宙 場景

隨着互動技術矩陣逐漸完善,沉浸式體驗升級,音視頻向元宇宙進階。

虛擬形象、虛擬直播、虛擬語聊等元宇宙新場景,對實時音視頻互動也提出了更高要求,要求更低的延遲和音視頻交互質量,為用户提供更沉浸式的使用體驗。

| | 主要功能 | 功能描述 | 業務場景 | | ----------- | --------------------------------------------------------------------- | ------------------------------------------------- | ------------------- | | 基礎功能 | 音視頻通話 | 預留靈活、友好的擴展接口,快速接入即構實時音視頻服務。讓音視頻無處不在,滿足用户在元宇宙裏實時交流 | 虛擬直播 虛擬語聊 虛擬K歌 虛擬會議 | | 實時音視頻 | 超低延時下,觀眾實時接收主播的音視頻流,直播流暢不卡頓。 | 虛擬直播 虛擬語聊 虛擬K歌 虛擬會議 | | | 進階功能 | 實時消息互動 | 通過房間實時消息功能,實時展示房間內的消息,例如發消息、進退房提示、互動通知等。 | 虛擬語聊 | | 實時錄製 | 快速實現音視頻通話及會議直播的錄製功能,支持錄製回放 | 虛擬會議 | | | 超低延遲合唱 | 超低延遲合唱體驗,端到端延遲低於 70 ms,達到人體無感官延遲水平,全球用户均可享受真正實時的體驗 | 虛擬K歌 | | | 音樂音效 | 200萬+首詞庫版權,覆蓋熱門歌曲,快速實現 k 歌業務。通過獲取正版曲庫資源,播放背景音樂,並展示變聲混響多種趣味效果。 | 虛擬K歌 | | | 送禮物 | 支持用户向房間內主播或其他指定用户贈送禮物。 | 虛擬直播 虛擬語聊 虛擬K歌 | | | 範圍語音 | 讓聲音具有距離感,超出限定範圍則無法聽到聲音 | 虛擬K歌 虛擬語聊房 虛擬會議 虛擬演唱會 虛擬發佈會 | | | 特色功能 | 焦點語音 | 最高50人同時開麥,支持焦點語音,提供優質穩定的基礎體驗 | 虛擬語聊 | | Avatar 虛擬形象 | 自定義捏臉換裝,塑造個性化形象。快速生成專屬形象,提供200+素材,支持表情隨動和肢體隨動手勢識別等AI能力。 | 虛擬人 虛擬K歌 虛擬語聊房 虛擬會議 虛擬演唱會 虛擬發佈會 | | | 3D場景 | 無需Unity開發經驗,半天快速實現3D虛擬場景的渲染。豐富的場景拓展能力,支持快速搭建虛擬場景。 | 虛擬K歌 虛擬語聊房 虛擬會議 虛擬演唱會 虛擬發佈會 | | | 3D空間音效 | 支持20+模擬真實 K 歌體驗,進行 3D 空間音效渲染,聲音將會隨距離的增加而衰減,直至超出所設置的範圍,則不再有聲音。 | 虛擬K歌 虛擬語聊房 虛擬會議 虛擬演唱會 虛擬發佈會 | | | 萬人實時狀態同步 | 提供多人同屏下,人物位移、動作、場景交互等狀態的實時同步,支持萬人量級高併發的場景,保障穩定的幀數據同步服務。 | 虛擬發佈會 虛擬會議 | | | 人物控制與場景交互 | 提供搖桿控制人物在場景中自由移動。提供豐富多樣的預置人物動作庫,提供第一視角、第三視角等多種視角切換能力。提供人與人,人與場景的互動能力。 | 虛擬K歌 虛擬語聊房 虛擬會議 虛擬演唱會 虛擬發佈會 | |

五、技術指標強弱

技術指標的強弱直接影響後續的開發成本和用户體驗,所以在做音視頻選型時需關注三類特性指標,體驗指標、底層技術指標、其他指標。

不同應用場景對核心特性指標的要求不同,主要體現在用户對實時性、互動性兩大消費習慣。培訓直播要求雙向互動,延時秒級即可。互動直播PK連麥則超過兩個用户間的互動,時延要求更嚴格毫秒級別。

圖例:音視頻應用場景對實時性和互動性的要求

核心特性指標:

  • 體驗指標:端到端延遲、流暢度、音畫質量、首幀耗時
  • 底層技術指標:抗丟包率、3A處理、網絡傳輸、CPU內存佔有率
  • 其他指標:包體積大小、單房間容量

以音視頻廠商聲網、即構為例,指標數值來自各廠家官網鏈接

| | 特性 | 即構 | 聲網 | | ------ | ------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------- | --------------- | | 體驗指標 | 端到端延遲 | 平均300ms | 端到端 小於400ms | | 流暢度 | 優秀 | 優秀 | | | 音畫質量 | 音頻採樣率:16 kHz ~ 48 kHz,支持單、雙聲道。 SDK 採集支持 4K 分辨率、1 fps ~ 60 fps 幀率。 | 音頻採樣率:16 kHz ~ 48 kHz 支持單、雙聲道 SDK 採集支持 1080p 分辨率,60 fps 幀率,自採集支持 4K | | | 首幀耗時 | 基本無感知 | 基本無感知 | | | 底層技術指標 | 抗丟包率 | 視頻上下行抗丟包率70%,音頻上下行丟包80% | 音頻上下行抗丟包率 80% | | 3A處理 | 支持 | 支持 | | | 網絡傳輸 | 全球 部署500 多個核心節點,音視頻傳輸依託於自研的MSDN基礎網絡、即構MSDN融合了多個雲商,相比自建網絡和單一雲商架構,可用性更高;支持千萬級併發,單房間百萬級併發,並且能夠實時探測線路質量,針對線路故障可以秒級響應和自動恢復,相比人工干預更穩定,保證服務的可靠性。 | FPA 全鏈路“端”+“雲”協同加速,提供更優秀的整體加速性能與穩定性。 | | | 其他指標 | SDK 包體積 | 2.98-11.52 MB | 4.61 ~ 13.94 MB | | 單房間容量 | 單房間可以支持50路音視頻互動,根據需要可以配置更多,純語音萬人互動 | 音視頻最高支持17人連麥互動 | |

通過調研發現,用户最不能接受實時音視頻的三個質量問題是延遲大、卡頓明顯、畫質差。我們測評了即構、聲網的端到端延遲、流暢度和清晰度,對比分析如下:

流暢度、清晰度: 在同一網絡和同一設備下測試,在視頻畫質方面,個人主觀感知清晰度是差不多的,延時層面均感受不到明顯延遲,而在和wifi隔一段距離的弱網情況下,受限網絡各服務商的清晰度流暢度都略有下降,在整體感觀上即構表現好一些。

1.

六、解決方案成熟度

技術選型的關鍵點還在於:解決方案的成熟度,方案越成熟後續開發越省力,對開發者越友好。成熟度主要從以下三個方向:方案拓展性、場景覆蓋、頭部客户。

  • 方案易用性和拓展性:接入流程是否簡單?拓展性是否夠強?生態化是否好?是否提供全面友好的第三方開發者支持?
  • 場景覆蓋:是否可以全場景覆蓋,是否按場景提供核心功能,音視頻質量是否根據不同場景進行優化
  • 頭部客户:是否有行業頭部大客户?是否有企業級APP接入實戰經驗?是否提供全流程服務?

6.1 方案易用性和拓展性

方案接入流程的快慢決定着業務是否可快速上線搶佔市場,這就要求SDK的模塊設計簡潔清晰、有完備的註釋、和不同規格的説明。市面上的音視頻SDK接入流程通常有以下3步,1.獲取APP ID,2.集成SDK,3.實現音視頻功能。如下圖:

廠商通用接入流程:

暫時無法在飛書文檔外展示此內容

即構和聲網的詳細接入流程

| 序號 | 具體步驟 | 即構 | 聲網 | | -- | --------- | ---------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------- | | 1 | 準備階段 | 註冊開發者賬號獲取appid+appSign | 註冊開發者賬號獲取appid+app證書+token | | 2 | 集成SDK | 集成依賴包 | 集成依賴包 | | 3 | 初始化本地引擎對象 | 通過appid+appSign創建本地RTC引擎對 | 通過appid創建本地RTC引擎對象 | | 4 | 推本地流 | 1.loginRoom登陸房間 2.startPreview開始本地預覽 3.startPublishStream開始推本端流 | 1.setupLocalVideo設置本地視圖 2.joinChannel加入頻道 | | 5 | 拉遠端流 | 1.loginRoom登陸房間 2.startPreview開始本地預覽 3.starPlayStream開始拉遠端流 | 1.joinChannel加入頻道 2.setupRemoteVideo設置遠端試圖 | | 6 | 停推本端音視頻 | 1. mutePublishStreamVidio/mutePublishStreamAudio 2. stopPublishStream 3. enableCamera/muteMicrophone | 1.muteLocalVideoStream/muteLocalAudioStream 2.enableVideo/enableAudio | | 7 | 退出頻道/房間 | logoutRoom | leaveChannel | | 8 | 銷燬引擎 | destroyEngine | RtcEngine.destroy() |

聲網&即構音視頻通話時序圖如下

PS:圖片來自各廠商官網

通過實戰接入了即構跟聲網sdk,兩家廠商接入流程差異不大各有優勢,總結如下:

  • 證書鑑權方面: agroa在加入頻道時,必須要攜帶token進行驗證;而zego如果需要token校驗的話,在ZegoRoomConfig進行配置即可,這樣的處理更加人性化,方便開發者快速集成和測試
  • 音視頻 概念上: zego和agroa本身其實都具有流的概念,只是zego會把流的概念也拋給客户,而agroa是將流的概念以一種隱式的概念存在於API中,不直接向用户拋出流的概念,概念上agroa的SDK會比較人性化,比較好理解。而清楚了即構流概念後,對音視頻場景的搭建在技術架構的理解上更加透徹。
  • 推拉 概念上: agroa加入頻道時默認自動推拉流,因為沒有拋出流的概念,在同一個頻道的其他用户都會被以uid作為唯一標識拉流,而zego登陸房間後進行手動拉流,拋出流的概念直接對單條流進行控制;在邏輯上擴展性更高,在完成複雜業務邏輯時也更加方便。

廠商的產品架構決定了其方案的拓展性,拓展性強的方案可以提升開發效率,節約開發成本。開發者在選型需關注廠商的產品架構,上下游生態鏈。目前領先的實時互動雲服務廠商聲網和即構有都有較完整的產品架構和健全的上下游生態鏈,通過提供豐富的實時互動API、功能組件及插件等,幫助開發者及企業客户輕鬆搭建各類實時互動場景應用。

如以下產品架構圖看,聲網和即構以RTC Paas為核心業務,並逐步拓展構建音視頻產品矩陣。第三方生態建設上看,即構提供:AI 視覺、內容審核、第三方雲廠商、語音轉文字、正版版權音樂等服務,聲網通過雲市場提供:視頻特效、語音轉文字、內容審核等插件。

即構和聲網的產品架構圖

6.2 場景覆蓋和頭部用户

解決方案成熟度還需考慮應用場景拓展和頭部客户覆蓋,隨着音視頻的迅猛發展,實時音視頻已在各行各業有所應用。同時也對音視頻廠商提出了更高的要求,如何降低搭建場景化應用的門檻,助力開發者快速搭建實時互動場景的應用。

以即構為例,即構提供靈活、即接即用的模塊化產品組合,以及快速、可視化、低代碼的接入方案,開發者/企業可根據實際業務場景需求進行靈活組合。正因如此,即構賦能泛娛樂、在線教育、視頻會議、遊戲競技、遠程醫療、物聯網IOT、線上金融、政企服務等二十餘行業賽道的100多種場景。

聲網行業場景覆蓋

即構行業場景覆蓋

社交娛樂場景

| | 騰訊雲 | 即構 | 聲網 | | ------ | ------------------------------------ | ----------------------------------------------- | ----------------------- | | 場景解決方案 | 語聊房、秀場直播、Web互動直播、語音電台、在線K歌、相親房、小程序直播 | 語聊房、秀場直播、在線KTV、社交+小遊戲、視頻相親、在線健身、互動播客、FM電台 | 在線K歌房、直播、社交、遊戲、電商、聲動語聊 | | 場景優勢 | 支持跨房間PK、超低延遲、智能美顏 | 支持連麥、玩樂、直播等娛樂玩法。 超低延遲、數量最多的正版曲庫、行業首家支持實時合唱、美顏美聲 | 實時連麥、百萬人大頻道、高品質音視頻、無感切屏 | | 客户案例 | 他趣、全民K歌、唱吧、微光 | 映客直播、咪咕、Soul、TT語音、喜馬拉雅、樂逗遊戲 | MOMO、Meet me |

在線教育場景

| | 騰訊雲 | 即構 | 聲網 | | ------ | ------------------- | ------------------------------------------ | ----------------------------- | | 場景解決方案 | 互動大班課、互動小班課、AI課程 | 1V1在線教學、AI課堂、雙師課堂、超級小班、小班課、在線自習室、互動大班課等。 | 職業&成人教育、素質教育、K12教育、教育信息化 | | 場景優勢 | 支持屏幕共享、互動白板、錄製回放等功能 | 豐富的課堂形式,齊全的應用插件。 百萬大房間、屏幕共享、文件共享、互動白板、錄製回放 | 支持互動白板、屏幕共享、實時消息、實時錄製、口語測評等功能 | | 客户案例 | 智學網、騰訊教育、新東方 | 好未來、作業幫、掌門1對1、英語流利説 | 新東方 |

隨着實時音視頻的發展,人們對於實時互動的要求越來越高,不再滿足於基本的交流通訊。音視頻技術的發展演變使得實時互動在實時性、沉浸式上的表現不斷提升,為元宇宙帶來了更多想象空間。

元宇宙 虛擬世界場景

通過官網對比各廠商的元宇宙解決方案,即構的元宇宙佈局更深入,投入大量技術資源自研Avatar虛擬形象、Meta World虛擬世界兩大虛擬產品,結合即構強大的音視頻技術,可幫助開發者快速落地多人元宇宙場景。

| | 騰訊雲 | 即構 | 聲網 | | ------ | ----------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------- | | 場景解決方案 | 虛擬會議、虛擬展覽、虛擬演唱會、虛擬人電商直播、虛擬賽事、虛擬互動遊戲 | 虛擬直播、虛擬K歌房、虛擬語聊房、虛擬會議、虛擬演唱會 | 元語聊、元直播、互動遊戲 | | 場景優勢 | 虛擬多人場景、彈幕互動、動捕驅動、虛擬展覽場景選擇 | 自研Avatar虛擬形象、Meta World虛擬世界等虛擬產品。 提供Q版、二次元、動漫、擬人等多元化風格虛擬形象,以及豐富的服裝、粧容素材庫。 零門檻渲染3D場景,半天可快速實現虛擬場景,靈活自然的人物控制與場景交互。 還提供3D空間音效、範圍語音、萬人實時狀態同步等特色的音視頻功能,以及豐富易用的標準化組件。 | 3D 場景+虛擬形象、3D空間音頻、媒體播放器組件、捏臉與換粧編輯組件、實時面部捕抓。 | | 客户案例 | 官網暫未查詢到 | 小西米語音(語聊房使用了即構最新發布的Q版風格Avatar虛擬形象,讓用户可以自定義自己的風格形象) | 官網暫未查詢到 |

即構元宇宙解決方案(來自即構官網https://www.zego.im/

七、使用成本

因各大廠商直播SDK計費模式較多且差異不大,下邊列舉部分直播SDK廠商的報價供參考,大家可根據業務需求進行選擇。同時提供廠商官方地址,有任何價格相關疑問可直接諮詢官方。

阿里雲

官網地址:https://helpcdn.aliyun.com

CDN直播

1、按量後付費模式

1.1 按使用流量計費

按不同區域使用的流量階梯價格計費,當月分別超額累進(以自然月為一個累計週期,下個月自動清零重新累積)。定價受區域和帶寬階梯影響。

| 流量階梯(計費單位:元/GB) | 中國內地-CN | 北美-NA | 歐洲-EU | 亞太1區-AP1 | 亞太2區-AP2 | 亞太3區-AP3 | 中東非洲-MEAA | 南美-SA | | --------------- | ------- | ----- | ----- | -------- | -------- | -------- | --------- | ----- | | 0~10 TB(含) | 0.528 | 0.92 | 0.92 | 1.58 | 1.7 | 1.7 | 2.62 | 2.62 | | 10 TB~50 TB(含) | 0.506 | 0.92 | 0.92 | 1.58 | 1.7 | 1.7 | 2.62 | 2.62 | | 50 TB~100 TB(含) | 0.462 | 0.78 | 0.78 | 1.32 | 1.44 | 1.44 | 2.36 | 2.36 | | 100 TB~1 PB(含) | 0.396 | 0.4 | 0.4 | 1.04 | 1.32 | 1.24 | 1.96 | 1.84 | | 大於1 PB | 0.33 | 0.32 | 0.32 | 0.92 | 1.18 | 1.18 | 1.84 | 1.7 |

1.2 按峯值帶寬計費

以當日您直播觀看區域所在節點,直播加速服務分別產生的帶寬最高值(單位Mbps)為結算標準。定價受區域和帶寬階梯影響。

| 帶寬階梯(計費單位:元/Mbps/天) | 中國內地-CN | 北美-NA | 歐洲-EU | 亞太1區-AP1 | 亞太2區-AP2 | 亞太3區-AP3 | 中東非洲-MEAA | 南美-SA | | ------------------- | ------- | ----- | ----- | -------- | -------- | -------- | --------- | ----- | | 0~500 Mbps(含) | 1.32 | 3.28 | 3.28 | 6.56 | 7.88 | 7.88 | 11.82 | 10.64 | | 500 Mbps~5 Gbps(含) | 1.276 | 3.02 | 3.02 | 6.3 | 7.62 | 7.62 | 11.54 | 10.36 | | 5 Gbps~20 Gbps(含) | 1.232 | 2.76 | 2.76 | 6.04 | 7.34 | 7.34 | 11.28 | 10.1 | | 大於20Gbps | 1.188 | 2.62 | 2.62 | 5.9 | 7.22 | 7.22 | 11.16 | 9.98 |

即構 科技

官網網址:<https://www.zego.im/>

免費額度:每月免費使用10000分鐘,不超過完全免費,超過部分單獨計算:

優惠活動:常規優惠為官網報價的5%-15%,趕上大促部分產品折扣力度非常大低至1折起,親測購買音視頻產品組合套餐包更划算。👉即構七週年大促

值得一提的是,即構的官網自助服務流程體驗最好,也是目前唯一開通自助服務全流程的音視頻廠商,實現了開發者SDK集成閉環流程,從服務配置到賬户充值以及賬號查詢,皆可在即構官網在線自助完成,大大提升開發者開發效率。比如服務配置環節,自助開通秒級生效。賬户充值支持使用微信、支付寶、網銀等在線充值。合同簽署可線上完成。

1.實時音視頻 RTC

用量統計方式:按照用户實際拉取音視頻流的時長來統計實時音視頻服務的用量。

| 計費檔位 | 計費類型 | 檔位説明 | 價格(元/千分鍾) | | --------- | ---- | ---------------------------------- | --------- | | 高音質純音頻 | 時長 | 純音頻 | 7 | | 標清視頻(SD) | 時長 | 分辨率 ≤ 360P( 480 x 360 ) | 12 | | 高清視頻(HD) | 時長 | 360P < 分辨率 ≤ 720P( 1280 × 720 ) | 25 | | 超清視頻(HD+) | 時長 | 720P < 分辨率 ≤ 1080P( 1920 × 1080 ) | 98 | | 超清視頻(2K) | 時長 | 1080P < 分辨率 ≤ 1440P( 2560 × 1440 ) | 112 |

為便於開發者更好的理解計費模式,即構官網貼上對應產品的計費示例:

計費示例: 即構實時音視頻RTC

以多路視頻互動房間為例 https://doc-zh.zego.im/article/8666

2.CDN直播

用量統計方式:CDN 目前默認為後付費按量計費,並提供兩種計費類型:帶寬計費和流量計費,您可根據自身業務形態,選擇適合的計費模式。

| 服務定價 | | | | | --------------- | ---- | ----- | ---------- | | 計費檔位 | 計費類型 | 檔位説明 | 價格 | | (0Mbps,500Mbps] | 帶寬 | 月峯值帶寬 | 26元/Mbps/月 | | (500Mbps,2Gbps] | 帶寬 | 月峯值帶寬 | 24元/Mbps/月 | | (2Gbps,∞] | 帶寬 | 月峯值帶寬 | 22元/Mbps/月 | | 不區分階梯用量 | 流量 | 拉流累計 | 0.5元/GB |

計費示例

即構CDN直播 :https://doc-zh.zego.im/article/14091

音視頻產品根據延遲性分為實時音視頻RTC、低延遲直播和CDN直播,直播場景中直播連麥/PK玩法對互動同步性要求高,一般使用實時音視頻RTC能力。音視頻廠商實時音視頻RTC長距離端對端傳輸時延平均 300ms~400ms左右,即構實時音視頻RTC做到了端到端時延最低79ms,媲美現實的音視頻體驗。

直播場景中觀眾大規模併發一般使用CDN直播,格子各廠商CDN直播延遲較大在3S左右、抗弱網能力差容易卡頓。

基於此,即構推出超低延遲直播產品,延續了實時音視頻的質量優勢,複用了即構的海量數據分發網絡和自研傳輸協議,最高可抗80%丟包,並實現了600ms的延遲,適用於電商直播、網絡較差的出海音視頻等場景。

3.超低延遲直播

用量統計方式:目前默認為後付費按量計費,按照用户實際拉取音視頻流的時長來統計超低延遲直播服務的用量。

服務定價

| 計費檔位 | 計費類型 | 檔位説明 | 價格(元/千分鍾) | | --------- | ---- | --------------------------------- | --------- | | 高音質純音頻 | 時長 | 純音頻 | 4 | | 標清視頻(SD) | 時長 | 分辨率 ≤ 360P( 480 x 360 ) | 7 | | 高清視頻(HD) | 時長 | 360P < 分辨率 ≤ 720P( 1280 × 720 ) | 14.5 | | 超清視頻(HD+) | 時長 | 720P < 分辨率 ≤ 1080P( 1920 × 1080 ) | 57 |

計費示例:

即構超低延遲直播 https://doc-zh.zego.im/article/14712

聲網

官網網址:https://www.agora.io/

1.融合CDN直播

流量階梯單價:下表列出各個流量階梯下每個地區的流量單價,價格單位:元/GB。

| 服務定價 | | | | | | | | | | ---------------------- | ---- | ---- | ---- | ------ | ------ | ---- | ---- | ---- | | 月度總流量 (GB) | 中國內地 | 北美 | 歐洲 | 亞太 1 區 | 亞太 2 區 | 大洋洲 | 中東非洲 | 南美 | | 0 - 10,000 | 0.25 | 0.48 | 0.48 | 0.48 | 0.73 | 0.96 | 0.73 | 0.73 | | 10,000 (含)- 50,000 | 0.23 | 0.46 | 0.46 | 0.46 | 0.69 | 0.92 | 0.69 | 0.69 | | 50,000 (含)- 100,000 | 0.21 | 0.42 | 0.42 | 0.42 | 0.63 | 0.84 | 0.63 | 0.63 | | 100,000 (含)- 1,000,000 | 0.19 | 0.38 | 0.38 | 0.38 | 0.57 | 0.76 | 0.57 | 0.57 | | 大於 1,000,000 | 0.16 | 0.32 | 0.32 | 0.32 | 0.48 | 0.64 | 0.48 | 0.48 |

2.實時音視頻

聲網音視頻時長用量的單價如下:

| 用量類型 | 計費類型 | 檔位説明 | 單價(元/千分鍾) | | -------------- | ---- | --------------------------------------------------------- | --------- | | 音頻 | 時長 | 純音頻 | 7 | | 高清視頻(HD) | 時長 | 集合分辨率 ≤ 921,600(1280 × 720) | 28 | | 全高清視頻(Full HD) | 時長 | 921,600(1280 × 720)< 集合分辨率 ≤ 2,073,600(1920 × 1080) | 63 | | 2K 視頻 | 時長 | 2,073,600 (1920 × 1080) < 集合分辨率 ≤ 3,686,400 (2560 × 1440) | 112 | | 2K+ 視頻 | 時長 | 3,686,400 (2560 × 1440)< 集合分辨率 ≤ 8,847,360 (4096 × 2160) | 252 |

網易雲信

官網地址:https://netease.im

直播服務計費項由兩部分組成:日峯值帶寬費+增值服務費(可選)

1.普通直播

| 服務定價 | | | | ------------------------------------------------------------------------------------------------------------- | ----- | ---------------- | | 普通直播 | 日峯值帶寬 | 0.6 元 / Mbps / 日 | | 計費規則:當日使用普通直播服務產生的上下行帶寬之和峯值計費(單位:Mbps),如有海外需求可諮詢客户經理計費週期:按日計費舉例:當日峯值帶寬為 900 Mbps ,則對應日帶寬計費為 900 * 0.6 = 540 元 | | |

2.實時音視頻

計費單價根據單個用户訂閲的集合分辨率來計算,集合分辨率指用户訂閲的所有視頻流的分辨率之和。更多計費單價相關介紹請參考資費説明

| 媒體 | 計費模式 | 規格 | 單價 | | ------- | ---- | ------------------------------------------------ | -------- | | 音頻 | 時長 | 標準語音規格 | 5.9元/千分鍾 | | 視頻SD單價 | 時長 | 集合分辨率 ≤ 307,200(640 × 480) | 15元/千分鍾 | | 視頻HD單價 | 時長 | 307,200(640 × 480) < 集合分辨率 ≤ 921,600(1280 × 720) | 25元/千分鍾 | | 視頻HD+單價 | 時長 | 集合分辨率 > 921,600(1280 × 720) | 90元/千分鍾 |

結語

用ChatGPT的回答來結束這篇文章吧。ChatGPT建議為了選型適合的實時音視頻/直播SDK,開發者首先:需明確業務應用的需求,確定功能和性能指標的需求。其次調研市場上可用的直播SDK並進行功能、性能等特性的評估對比,最好能親自使用測試用例進行驗證確保所選音視頻SDK滿足其需求。

文中提到的廠商都有免費試用額度供開發者測試,感興趣的可自行到官網諮詢。

即構:https://www.zego.im/

聲網:https://docs.agora.io/

騰訊雲:https://cloud.tencent.com/