小談音視頻質量檢測
本人從一位測試的角度出發,基於目前項目中攝像頭的直播和語音對講業務,正尋求音視頻的質量測試及一些監控分析手段。工作中發現達到一定的併發程度之後,就會出現延時、卡頓、丟幀、馬賽克等問題。所以最近在網上看看專家的直播和專欄,學習一下行業內的好的測試方法。
這不,前幾天有幸參與了聲網的音頻算法工程師趙曉涵的關於《 實時語音質量監控系統的過去、現在和未來 》的在線直播和討論。本次直播旨在介紹一下聲網實時語音質量監控系統的進展,並和大家交流了一下未來的演化方向。
整理了一下,本次直播主要的內容主要涵蓋了以下幾個模塊:
1、過去:語音質量評估算法
2、現在:線下測試的線上化
3、未來:感知、反饋和監控一體化
一、過去:語音質量評估算法
其中,過去的語音質量評估算法主要介紹了有參考客觀評價方法、無參考客觀評價方法和主觀評價方法。
一千個觀眾會有一千個哈姆雷特,主觀評價方法暫且不論。有參考客觀評價方法中應用最廣泛的有 P.862 PESQ、PESQ-WB 這兩種。12 年左右推出了最新的有參考評價方法 P.863 POLQA,它是基於 PSQM 的升級改造。它們都主要依賴無損的參考信號。而無參考客觀評價方法無需參考信號。其中的 ANIQUE+據作者稱,其準確度超過有參考的 PESQ,這一點也很有意思。
客觀評價方法的痛點:
1、有參考方法:只能用在上線前
2、無參考方法-傳統信號域:應用場景窄,魯棒性差
3、無參考方法-傳統參數域:僅在有限弱網條件下可以保持精度
4、無參考方法-深度學習:應用場景和語料有限,複雜度高(信號域)
在語音質量評估算法這一方面,我們真的是小白。基於目前業務的,主要覆蓋還是功能測試、接口測試和流媒體的部分性能測試。利用現有算法對語音質量進行評估,暫時可能還不會做。
2、現在:線下測試的線上化
直播中趙曉涵老師在這一塊主要回顧了下在設計這個系統前的目標,和目前上下行鏈路的主要問題和解決方法。
現有的評估系統的設計目標:
1、精度高:評估結果可靠
2、覆蓋業務場景廣:遊戲、娛樂、教育等業務場景
3、算法複雜度不能太高:不會對性能造成很大的降低
4、和語音內容弱相關能力:不管輸入是語音、音樂還是噪聲,分析結果不能受影響。
下行主要有這幾個流程:編碼、傳輸、解碼、播放
下行側的質量評估方法也是主要根據上面四個模塊展開的:
1、編解碼器性能:不同的編解碼器對不同的語料處理結果不一樣
2、網絡傳輸:丟包、抖動和延遲等
3、弱網對抗算法質量:丟幀補償
4、設備的外放能力:設備硬件差會對音質有所損傷
這一部分內容深有感觸,我們目前用到的攝像頭來自海康、大華、雄邁、TPLink 等好幾個廠商,同個廠商又有多種型號。不同設備都有硬件差異,就連基本的國標接入都會有些許異常,更別説在音視頻上的表現了。目前我們平台所用的視頻編碼正從 H264 到 H265 轉變,音視頻質量測試顯得格外重要。
而網絡傳輸也是我們目前的性能測試經常遇到的瓶頸,尤其是是視頻文件上傳 s3 存儲會很大程度受限於上行的帶寬。另外還有使用 udp 傳輸,不可避免得造成數據的丟包等問題。
不同的終端設備,對音頻外放的音質也不盡相同。這一點我們在兼容性測試時已經有所發現。
三、未來:感知、反饋和監控一體化
對未來的系統的目標:
1、內部狀態更細:上行鏈路細節待優化。
2、體驗覆蓋更廣:目前有些噪聲還未能覆蓋,待優化。
3、反饋速度更快:目標在 1 分鐘內能收到反饋。
4、覆蓋通話更全:目標是每一秒都能監控到。
一個覆蓋廣,響應快,又精準的平台會是所有平台的平台的目標,希望能早日看到平台給音視頻質量檢測行業帶來更大的促進。
- 音頻技術的下一個“熱點”,會出現在哪個領域?丨一期一會 • 音頻工程師專場
- 桌面軟件開發框架大賞
- 即時通訊場景下安全合規的實踐和經驗
- 大家談的視頻體驗指標,都有哪些?如何測定?
- 從開源模型、框架到自研,聲網 Web 端虛擬背景算法正式發佈
- 聲網的混沌工程實踐
- 聲網崩潰數據的自動化閉環處理
- 視頻圖像色彩增強的主要方法與落地實踐
- 聲網AI降噪測評系統初探
- Agora Flat:在線教室的開源初體驗
- 三步開啟你的網絡服務全球動態加速之旅
- 如何基於 React Native 快速實現一個視頻通話應用
- 小談音視頻質量檢測
- Android 音視頻 - MediaCodec 編解碼音視頻
- 【AI 全棧 SOTA 綜述 】這些你都不知道,怎麼敢説會 AI?【語音識別原理 實戰】
- Android 音視頻 - EGL 源碼解析以及 C 實現
- Android 音視頻採集那些事
- 別再傻傻分不清 AVSx H.26x MPEG-x 了
- 音視頻編解碼 -- 編碼參數 CRF
- 【音視頻專題】音頻質量評估方法那些事