小談音視訊質量檢測
本人從一位測試的角度出發,基於目前專案中攝像頭的直播和語音對講業務,正尋求音視訊的質量測試及一些監控分析手段。工作中發現達到一定的併發程度之後,就會出現延時、卡頓、丟幀、馬賽克等問題。所以最近在網上看看專家的直播和專欄,學習一下行業內的好的測試方法。
這不,前幾天有幸參與了聲網的音訊演算法工程師趙曉涵的關於《 實時語音質量監控系統的過去、現在和未來 》的線上直播和討論。本次直播旨在介紹一下聲網實時語音質量監控系統的進展,並和大家交流了一下未來的演化方向。
整理了一下,本次直播主要的內容主要涵蓋了以下幾個模組:
1、過去:語音質量評估演算法
2、現在:線下測試的線上化
3、未來:感知、反饋和監控一體化
一、過去:語音質量評估演算法
其中,過去的語音質量評估演算法主要介紹了有參考客觀評價方法、無參考客觀評價方法和主觀評價方法。
一千個觀眾會有一千個哈姆雷特,主觀評價方法暫且不論。有參考客觀評價方法中應用最廣泛的有 P.862 PESQ、PESQ-WB 這兩種。12 年左右推出了最新的有參考評價方法 P.863 POLQA,它是基於 PSQM 的升級改造。它們都主要依賴無損的參考訊號。而無參考客觀評價方法無需參考訊號。其中的 ANIQUE+據作者稱,其準確度超過有參考的 PESQ,這一點也很有意思。
客觀評價方法的痛點:
1、有參考方法:只能用在上線前
2、無參考方法-傳統訊號域:應用場景窄,魯棒性差
3、無參考方法-傳統引數域:僅在有限弱網條件下可以保持精度
4、無參考方法-深度學習:應用場景和語料有限,複雜度高(訊號域)
在語音質量評估演算法這一方面,我們真的是小白。基於目前業務的,主要覆蓋還是功能測試、介面測試和流媒體的部分效能測試。利用現有演算法對語音質量進行評估,暫時可能還不會做。
2、現在:線下測試的線上化
直播中趙曉涵老師在這一塊主要回顧了下在設計這個系統前的目標,和目前上下行鏈路的主要問題和解決方法。
現有的評估系統的設計目標:
1、精度高:評估結果可靠
2、覆蓋業務場景廣:遊戲、娛樂、教育等業務場景
3、演算法複雜度不能太高:不會對效能造成很大的降低
4、和語音內容弱相關能力:不管輸入是語音、音樂還是噪聲,分析結果不能受影響。
下行主要有這幾個流程:編碼、傳輸、解碼、播放
下行側的質量評估方法也是主要根據上面四個模組展開的:
1、編解碼器效能:不同的編解碼器對不同的語料處理結果不一樣
2、網路傳輸:丟包、抖動和延遲等
3、弱網對抗演算法質量:丟幀補償
4、裝置的外放能力:裝置硬體差會對音質有所損傷
這一部分內容深有感觸,我們目前用到的攝像頭來自海康、大華、雄邁、TPLink 等好幾個廠商,同個廠商又有多種型號。不同裝置都有硬體差異,就連基本的國標接入都會有些許異常,更別說在音視訊上的表現了。目前我們平臺所用的視訊編碼正從 H264 到 H265 轉變,音視訊質量測試顯得格外重要。
而網路傳輸也是我們目前的效能測試經常遇到的瓶頸,尤其是是視訊檔案上傳 s3 儲存會很大程度受限於上行的頻寬。另外還有使用 udp 傳輸,不可避免得造成資料的丟包等問題。
不同的終端裝置,對音訊外放的音質也不盡相同。這一點我們在相容性測試時已經有所發現。
三、未來:感知、反饋和監控一體化
對未來的系統的目標:
1、內部狀態更細:上行鏈路細節待優化。
2、體驗覆蓋更廣:目前有些噪聲還未能覆蓋,待優化。
3、反饋速度更快:目標在 1 分鐘內能收到反饋。
4、覆蓋通話更全:目標是每一秒都能監控到。
一個覆蓋廣,響應快,又精準的平臺會是所有平臺的平臺的目標,希望能早日看到平臺給音視訊質量檢測行業帶來更大的促進。
- 音訊技術的下一個“熱點”,會出現在哪個領域?丨一期一會 • 音訊工程師專場
- 桌面軟體開發框架大賞
- 即時通訊場景下安全合規的實踐和經驗
- 大家談的視訊體驗指標,都有哪些?如何測定?
- 從開源模型、框架到自研,聲網 Web 端虛擬背景演算法正式釋出
- 聲網的混沌工程實踐
- 聲網崩潰資料的自動化閉環處理
- 視訊影象色彩增強的主要方法與落地實踐
- 聲網AI降噪測評系統初探
- Agora Flat:線上教室的開源初體驗
- 三步開啟你的網路服務全球動態加速之旅
- 如何基於 React Native 快速實現一個視訊通話應用
- 小談音視訊質量檢測
- Android 音視訊 - MediaCodec 編解碼音視訊
- 【AI 全棧 SOTA 綜述 】這些你都不知道,怎麼敢說會 AI?【語音識別原理 實戰】
- Android 音視訊 - EGL 原始碼解析以及 C 實現
- Android 音視訊採集那些事
- 別再傻傻分不清 AVSx H.26x MPEG-x 了
- 音視訊編解碼 -- 編碼引數 CRF
- 【音視訊專題】音訊質量評估方法那些事