RTC 技術乾貨 | 音訊質量評價體系那些事

語言: CN / TW / HK

前言

 

近年來,線上音視訊的產品形態和應用場景越來越豐富,疫情更加速了許多行業線下轉線上的佈局,音視訊技術也越來越受到各大廠的重視,Zoom 的股價飛昇,騰訊、位元組、阿里等等巨頭的大力投入,令這個賽道的競爭越發激烈。在這個激烈的競爭環境下,所有的賽道玩家都很清楚,好的音視訊體驗,將是決定產品成功與否的最重要因素之一。在本篇內容中我們將主要圍繞音訊質量評估的一些重要標準,來講講不同評價體系裡的標準、內容、相互關聯和一些個人見解。

 

在介紹各種評價標準和演算法之前,有一個組織必須要重點介紹,ITU (International TelecommunicationUnion) 國際電信聯盟簡稱國際電聯,ITU 是主管資訊通訊技術事務的聯合國機構,旗下有一個專門制定電信標準的分支機構 ITU-T(ITU Telecommunication Standardization Sector of ITU)。

 

01 主觀音訊質量評價標準:MOS in ITU-T P.800

 

說起音訊質量的評價,它並不是現在才出現的。早在電話發明之後,如何系統地評價語音質量就成了一個難題。ITU-T 作為通訊領域制定標準的權威機構,當然不會坐視不管,於是在 1996 年 8 月 30 日,正式推出了 P.800: Methods for subjective determination of transmission quality 標準。在這個標準裡面有一個重要的指標被提出來,那就是今天被沿用最為廣泛的主觀評價標準 MOS(Mean Opinion Score)

有些人可能覺得這個標準好簡單,不就是 1-5 分的打分麼?可是事實上並不是,主觀的質量評價要想成為可重複使用的評價標準是很難的。不同環境、心情、知識儲備、職業、聽力範圍及靈敏度等等背景的人都可能會對同一個聲音給予不同的評分,甚至一個人在不同時間和背景下對於同一段語音質量,也會給予不同的主觀評分。所以光有一個 MOS 評分是遠遠不夠的,在標準裡面還推薦了多種可行的測試方案,比如在 Listening-opinion tests 測試方案中給出了"Absolute Category Rating" (ACR) 。裡面規定用短分組的不相關的句子測試,並且這些句子是通過一系列標準測試驗證過的,然後在相同的測試方案下,相同的物理條件和傳輸系統下,來對比測試的結果。這樣測試方案就具備較高程度的結果一致性。而這裡說的物理條件包含非常的細緻,例如測試線材、噪聲(底噪;環境噪聲)、噪聲測量的位置。其中環境噪聲還分為(房間噪聲、車內噪聲等)。除此以外對噪聲測量的位置、建立連線、監聽、儀器裝置設計、對話任務等等都有一些建議。

說白了,這個標準事無鉅細地列舉了所有可能對主觀評分一致性產生影響的因素,用很多不相關意義的短句組,在實驗室可以控制的物理條件下,讓很多被測試人員在相同環境下做對比測試,再做平均。這樣的測試才能達到一致性標準,同時也具備了可行性。

但同時我們也發現,組織這樣的一場測試耗時耗力,實在是不適合快速的質量驗證。儘管如此,它對於今天依然非常有意義,比如現在很多產品在通話結束後給使用者的質量反饋打分,1 星到 5 星,雖然不能控制在相同的物理條件下,但是大量的使用者主觀評分概率分佈依然可以相對客觀地評價產品的主觀質量。

最後,主觀音訊質量評價標準除了給出 MOS 這個有意義的評分標準,還給出了兩個標準 MOSle 和 MOSlp,也非常有參考意義

-MOSle-

-MOSlp-

 

02 客觀有參考音訊質量評價標準:PESQ in P.862 & POLQA in P.863

 

主觀評價體系建立後,由於其實現起來的高成本和低效率,並不適合企業快速驗證系統的音訊質量,所以客觀標準的需求日益擴大。這個時候需要一個可以近似人類聽覺體驗的客觀評價體系,並且能做到儘量穩定。

做一個成熟穩定高度逼近人類聽覺體驗的評價標準非常難,所以客觀標準的制定最初是建立在一套有參考訊號的評價體系之上的。也就是評價的時候,同時需要待測訊號和參考訊號(不經過待測系統只經過測試裝置環境迴環的訊號)。相較於無參考評價方案,有參考的客觀評價方案更容易做得貼近主觀評價體系。

但即使是有參考估計,想要全面模擬主觀評價也還是比較難的,隨著演算法不斷髮展和完善,評價從只考慮部分指標到考慮更多指標發展。比如在介紹 PESQ 之前,也有一些客觀評價標準被推出,評價有一些侷限性,如:perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者只能用於音訊編碼器的評估,而後者只能評估有限範圍內的失真。

 

PESQ

 

ITU-T 在 2001 年 02 月釋出的 P.862 裡推出了一個新的方法:Perceptual evaluation of speech quality (PESQ),也是在一段時間內,業界廣泛使用的方案。標準裡這麼說道:這是多年積累的結果,是一款不僅適用於音訊編碼器,同時也適合 end-to-end 測試音訊質量的評估方法。我們從下面幾個角度談一談 PESQ 吧。

1、PESQ 的測試方案

PESQ 如標準的描述,可以進行端到端的音訊質量測試,把參考訊號(Reference speech) line in 傳入傳送端(如下圖是一個電話),經過電話網路到接收端,再 Line out 傳出和直接回環(圖裡叫做參考路徑 Reference path)的參考訊號傳入 PESQ 演算法進行,有參考評估,最後生成 PESQ score。

需要注意的是,參考訊號並非是隨意選取的,標準對於輸入的參考訊號有較嚴格的限制,比如長度:8-30s 的長度,裡面的每個短句不能低於 3.2s,活動語音的佔比 40%到 80%,語音音量:參考 ITU-T P.56 在-30dBov 同時避免溢位,等等。

2、PESQ 演算法流程

標準在 PESQ 算裡面針對多個部分做了詳細的闡述,這裡給出一個簡單的 PESQ 的演算法框架如下圖:

簡單來說:Time Alignment 把輸入的活動語音段檢測出來,再進行 delay 計算和語音分段,這個演算法是可以相容可變 delay 的。然後 PESQ Algorithm 在計算對齊的參考訊號和待測訊號,得到它們的頻域的訊號進行一些補償後,轉到響度域再根據心理聲學模型,對比兩個訊號的感知差異。最後將差異 mapping 到 類似 MOS 分值的 PESQ score,取值範圍在 -0.5 到 4.5。

3、PESQ 的有限性

1)只適用於窄帶和寬頻(2005 年 P.862.2 Wide-band Extension)音訊。

2) 只用於測量 one-way 語音的失真和噪聲。對於響度降低、時延、回聲等等方面和雙邊互動相關的,都無法評測。

3) 多數情況下評分比較符合主觀標準結果,但部分場景下和主觀測試結果有一些差距。評分結果的分佈的聚合性一般。標準裡面也說明了,PESQ 是不能代替主觀測試的,它只是一個具備參考意義的近似主觀體驗客觀評價標準。

 

POLQA

 

隨著時間的發展,更多的適用範圍、更廣泛的標準也一一湧現,如 2004 年 P.563 的 3SQM,還有一個就是一直沿用到今天、在有參考客觀音訊質量評價領域最新也是最大範圍被應用的在 P.863 裡出現 POLQA 標準。

1、POLQA 測試方案與演算法框架

POLQA 的測試方案和 PESQ 一樣,也用了參考訊號來做對比,測試方案差不多。演算法大框架也差距不大,但是用了全新的 Time Alignment 演算法和全新的感知模型。這裡就不展開了,給出一個核心模型流程圖(沒有包括 Time Alignment 和 Perceptual Model):

2、重點說一下 POLQA 和 PESQ 的區別

這裡轉載 Pomy 在一份報告裡面描寫關於兩個演算法的一些地方的區別:

除了兩個演算法外,他還專門組織了"Absolute Category Rating" (ACR)測試,測試了 Human、 POLQA、PESQ 之間的區別,如下圖:

總的來說,POLQA 不僅支援全頻帶評測,還增加了對響度變化的評估,全新的感知模型評價體系使得 POLQA 和主觀評測的結果更加接近。

 

03 客觀無參考音訊質量評價標準:E-model in G.107

 

前面介紹了主觀音訊質量評測標準和客觀有參考音訊質量評測標準,特別是當有了客觀的有參考音訊質量評價標準,企業可以很方便地測試系統的端到端音訊質量,雖然不能完全取代主觀測試,可隨著標準的更新,客觀有參考評價標準會越來越接近主觀評價且越來越穩定。但是很多企業也發現,即使有端到端的客觀有參考評價標準,依然很難解決線上音訊質量的實時監控。有沒有一種指標可以在不需要參考訊號的情況下,在某種程度上反應出主觀音訊質量的變化呢?

ITU-T 在 2015 年 6 月釋出了 G.107,給出了一種計算模型專門評估端到端傳輸的音訊質量評估,其演算法模型叫 E-model。 

 

1、E-model 的基本演算法結構和框架

E-model 是在一個評估音訊裝置損傷叫做”Voice Transmission Quality from Mouth to Ear”的模型基礎上衍生出來的。E-model 會把通話中傳送端和接收端當成嘴到耳朵的評估,把通話分成傳送端和接收端,然後把能考慮到一些可以量化的、對於聲音質量有影響的因素都參考進來。如下圖:

其中 OLR:Overall Loudness Rating,SLR:Receive Loudness Rating, RLR:Receive Loudness Rating。E-model 的傳輸損傷等級因子 R 的公式為:

其中:

R0:基礎訊號比

IS:傳輸時產生的同步損傷,由量化,連線等因素影響

ID:傳輸的時延損傷

Ie-eff:裝置損傷係數

A:優勢係數(和其他所有的傳輸引數都沒有關係的)

每個數值的計算都比較複雜,且引數較多,這裡就不一一展開了。

2、E-model 的結果 R 如何匯出 MOS

3、關於 E-model 的一些感想

G.107 給我們帶來一套複雜的、完善度也相對較高的評估模型 E-model,這個模型在沒有參考訊號的情況下,把對於語音質量有影響的很多因子都考慮進去了。先不說能不能完全靠近主觀測試的評價體系,對於企業的線上實時音訊質量監控也具備很大的指導意義。另外也有人提供了一些改良方案,例如加入網路 jitter 的係數對評價結果產生影響,當然是不是合適也需要在實踐中驗證了。

 

以上介紹了一個音訊質量主觀評價標準以及兩個音訊質量客觀有參考評估標準,以及一個音訊質量客觀無參考的評價標準。值得再次申明的是,客觀評價標準是不能代替主觀標準的。雖然隨著演算法的提升,它越來越接近主觀評價,但在實際問題的優化中,主觀的聽感是不能代替的。當主觀聽感感受和客觀指標產生了差異,既不能盲目相信少數人的少次測試聽感結果,也不用盲目迷信客觀標準,陷入了削足適履局面。

關注我們,我們將為大家持續分享更多關於音視訊的技術乾貨、技術探索及最佳實踐。

關於拍樂雲

拍樂雲成立於 2019 年,是國內第一家視訊會議背景的實時互動通訊雲服務提供商,匯聚了一大批專注於音訊、視訊、網路、AI 等領域的資深技術專家。通過 Pano SDK,企業開發者即可在全球範圍內快速實現互動課堂、語音聊天室、視訊社交、直播連麥、遊戲語音、視訊客服、遠端醫療、辦公協作等場景。