音訊編解碼介紹(最全v1.0)

語言: CN / TW / HK

音訊編解碼介紹(最全v1.0)

目錄:

1. PCMU(G.711U)

2. PCMA(G.711A)

3. ADPCM

4. LPC(Linear Predictive Coding)

5. CELP(Code Excited Linear Prediction)

6. G.711

7. G.721

8. G.722

9. G.723

10.G.723.1

11.G.728

12.G.729

13.G.729A

14.GIPS

15.SILK

16.NICAM(Near Instantaneous Companded Audio Multiplex)

17.MPEG-1 audio layer 1

18.MUSICAM(MPEG-1 audio layer 2)

19.MP3(MPEG-1 audio layer 3)

20.MPEG-2 audio layer

21.AAC(Advanced Audio Coding)

22.Dolby AC-3

23.ASPEC(Audio Spectral Perceptual Entropy Coding)

24.PAC(Perceptual Audio Coder)

25.HR

26.FR

27.EFR

28.GSM-AMR(Adaptive Multi-Rate)

29.EVRC(Enhanced Variable Rate Coder)

30.QCELP(QualComm Code Excited Linear Predictive)

31.Apt-X

32.SPEEX

33.AMR(Adaptive Multi-Rate

34.OPUS

35.OGG

36.ILBC

37.ISAC


本內容部分原創,因作者才疏學淺,偶有紕漏,望不吝指出。同時感謝各路大神對本內容的支援和幫助。本內容由靈聲訊音訊-語音演算法實驗室整理創作,轉載和使用請與“靈聲訊”聯絡,聯絡方式:音訊/識別/合成演算法QQ群(696554058)


1. PCMU(G.711U)
型別:Audio
制定者:ITU-T
支援頻寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們佔用的頻寬較高,需要64kbps。
優點:語音質量優
缺點:佔用的頻寬較高
應用領域:voip (Voice over Internet Protocol)
版稅方式:Free
 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的頻寬也最多(64kbps)。如果網路頻寬比較低,可以選用低位元速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的頻寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶 寬足夠並且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬頻的編碼方法G722(64kbps),這可以提供有高保真度的音質。

2. PCMA(G.711A)
型別:Audio
制定者:ITU-T
支援頻寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們佔用的頻寬較高,需要64kbps。
優點:語音質量優
缺點:佔用的頻寬較高
應用領域:voip
版稅方式:Free
 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的頻寬也最多(64kbps)。如果網路頻寬比較低,可以選用低位元速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的頻寬(G723需要5.3/6.3kbps,G729需要8kbps)。如果帶 寬足夠並且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬頻的編碼方法G722(64kbps),這可以提供有高保真度的音質。




















3. ADPCM(自適應差分PCM)
型別:Audio
制定者:ITU-T
支援頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種效能比較好的波形編碼。它的核心想法是:
①利用自適應的思想改變數化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
優點:演算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
 注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對 16bit (或者更高?) 聲音波形資料的一種有失真壓縮演算法, 它將聲音流中每次取樣的 16bit 資料以 4bit 儲存, 所以壓縮比 1:4. 而壓縮/解壓縮演算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。


4. LPC(Linear Predictive Coding,線性預測編碼)
型別:Audio
制定者:
支援頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
 注:引數編碼又稱為聲源編碼,是將信源訊號在頻率域或其它正交變換域提取特徵引數,並將其變換成數字程式碼進行傳輸。譯碼為其反過程,將收到的數字序列經變 換恢復特徵參量,再根據特徵參量重建語音訊號。具體說,引數編碼是通過對語音訊號特徵引數的提取和編碼,力圖使重建語音訊號具有儘可能高的準確性,但重建 訊號的波形同原語音訊號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬於引數編碼。該編碼位元率可壓縮到2Kbit/s- 4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。
























5. CELP(Code Excited Linear Prediction,碼激勵線性預測編碼)
型別:Audio
制定者:歐洲通訊標準協會(ETSI)
支援頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差訊號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
② 用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音週期延遲的外形更為平滑;
④ 根據長時預測的效率,調整隨機激勵向量的大小,提高語音的主觀質量;








⑤ 使用基於通道錯誤率估計的自適應平滑器,在通道誤位元速率較高的情況下也能合成自然度較高的語音。
結論:
① CELP演算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
② 使用快速演算法,可以有效地降低CELP演算法的複雜度,使它完全可以實時地實現;
③ CELP可以成功地對各種不同型別的語音訊號進行編碼,這種適應性對於真實環境,尤其是背景噪聲存在時更為重要。
優點:用很低的頻寬提供了較清晰的語音
缺點:
應用領域:voip
版稅方式:Free
 注:1999年歐洲通訊標準協會(ETSI)推出了基於碼激勵線性預測編碼(CELP)的第三代行動通訊語音編碼標準自適應多速率語音編碼器(AMR), 其中最低速率為4.75kb/s,達到通訊質量。CELP 碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CELP是近10年來最成功的語音編碼演算法。
CELP語音編碼演算法用線性預測提取聲道引數,用一個包含許多典型的激勵向量的碼本作為激勵引數,每次編碼時都在這個碼本中搜索一個最佳的激勵向量,這個激勵向量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所採用,美國聯邦標準FS1016就是採用CELP的編碼方法,主要用於高質量的窄帶語音保密通訊。CELP (Code-Excited Linear Prediction) 這是一個簡化的 LPC 演算法,以其低位元率著稱 (4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。


6. G.711
型別:Audio
制定者:ITU-T
支援頻寬:64Kbps
特性:演算法複雜度小,音質一般
優點:演算法複雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:佔用的頻寬較高
應用領域:voip
版稅方式:Free
備註:70年代CCITT公佈的G.711 64kb/s脈衝編碼調製PCM。


7. G.721
型別:Audio
制定者:ITU-T
支援頻寬:32Kbps
特性:相對於PCMA和PCMU,其壓縮比較高,可以提供2:1的壓縮比。
優點:壓縮比大
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備註:子帶ADPCM(SB-ADPCM)技術。G.721標準是一個程式碼轉換系統。它使用ADPCM轉換技術,實現64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換。



































8. G.722
型別:Audio
制定者:ITU-T
支援頻寬:64Kbps
特性:G722能提供高保真的語音質量
優點:音質好
缺點:頻寬要求高
應用領域:voip
版稅方式:Free
備註:子帶ADPCM(SB-ADPCM)技術


9. G.723(低位元速率語音編碼演算法)
型別:Audio
制定者:ITU-T
支援頻寬:5.3Kbps/6.3Kbps
特性:語音質量接近良,頻寬要求低,高效實現,便於多路擴充套件,可利用C5402片內16kRAM實現53coder。達到ITU-TG723要求的語音質量,效能穩定。可用於IP電話語音信源編碼或高效語音壓縮儲存。
優點:位元速率低,頻寬要求較小。並達到ITU-TG723要求的語音質量,效能穩定。
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
 注:G.723語音編碼器是一種用於多媒體通訊,編碼速率為5.3kbits/s和6.3kbit/s的雙位元速率編碼方案。G.723標準是國際電信聯盟 (ITU)制定的多媒體通訊標準中的一個組成部分,可以應用於IP電話等系統中。其中,5.3kbits/s位元速率編碼器採用多脈衝最大似然量化技術 (MP-MLQ),6.3kbits/s位元速率編碼器採用代數碼激勵線性預測技術。


10. G.723.1(雙速率語音編碼演算法)
型別:Audio
制定者:ITU-T
支援頻寬:5.3Kbps(22.9)
特 性:能夠對音樂和其他音訊訊號進行壓縮和解壓縮,但它對語音訊號來說是最優的。G.723.1採用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的比 特流中加入了人為的噪聲。除了預留頻寬之外,這種技術使發信機的調變解調器保持連續工作,並且避免了載波訊號的時通時斷。
優點:位元速率低,頻寬要求較小。並達到ITU-TG723要求的語音質量,效能穩定,避免了載波訊號的時通時斷。
缺點:語音質量一般
應用領域:voip
版稅方式:Free
備註:G.723.1演算法是 ITU-T建議的應用於低速率多媒體服務中語音或其它音訊訊號的壓縮演算法,其目標應用系統包括H.323、H.324等多媒體通訊系統 。目前該演算法已成為IP電話系統中的必選演算法之一。


11. G.728
型別:Audio
制定者:ITU-T
支援頻寬:16Kbps/8Kbps
特性:用於IP電話、衛星通訊、語音儲存等多個領域。G.728是一種低時延編碼器,但它比其它的編碼器都複雜,這是因為在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其效能。
優點:後向自適應,採用自適應後置濾波器來提高其效能
缺點:比其它的編碼器都複雜
應用領域:voip
版稅方式:Free
備註:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP)。1996年ITU公佈了G.728 8kb/s的CS-ACELP演算法,可以用於IP電話、衛星通訊、語音儲存等多個領域。16 kbps G.728低時延碼激勵線性預測。
G.728是低位元線性預測合成分析編碼器(G.729和G.723.1)和後向ADPCM編碼器的混合體。G.728是LD-CELP編碼器,它一次只 處理5個樣點。對於低速率(56~128 kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議採用的語音編碼器。由於其後向自適應特性,因此G.728是一種低時延編碼器,但 它比其它的編碼器都複雜,這是因為在編碼器中必須重複做50階LPC分析。G.728還採用了自適應後置濾波器來提高其效能。















































12. G.729
型別:Audio
制定者:ITU-T
支援頻寬:8Kbps
特性:在良好的通道條件下要達到長話質量,在有隨機位元誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等。這種語音壓縮演算法可以應用在很廣泛的領域中,包括IP電話、無線通訊、數字衛星系統和數字專用線路。
G.729演算法採用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)演算法。這種演算法綜合了波形編碼和引數編碼的優點,以自適應預測編碼技術為基礎,採用了向量量化、合成分析和感覺加權等技術。
G.729編碼器是為低時延應用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延為25ms,位元率為8 kbps。
優點:語音質量良,應用領域很廣泛,採用了向量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:在處理隨機位元錯誤方面效能不好。
應用領域:voip
版稅方式:Free
 注:國際電信聯盟(ITU-T)於1995年11月正式通過了G.729。 ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準。G.729是由美 國、法國、日本和加拿大的幾家著名國際電信實體聯合開發的。


13. G.729A
型別:Audio
制定者:ITU-T
支援頻寬:8Kbps(34.4)
特性:複雜性較G.729低,效能較G.729差。
優點:語音質量良,降低了計算的複雜度以便於實時實現,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:效能較G.729差
應用領域:voip
版稅方式:Free
備註:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的複雜度以便於實時實現,因此目前使用的都是G.729A。
























  • 14. GIPS
    型別:Audio
    制定者:瑞典Global IP Sound公司
    支援頻寬:
    特性:GIPS技術可根據頻寬狀況自動調節編碼位元速率,提供低位元速率高質量的音訊。GIPS的核心技術(網路自適應演算法,丟包補償演算法和回聲消除演算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。
    優點:很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果
    缺點: 不是Free
    應用領域:voip
    版稅方式:每年支付一筆使用權費用
    注:GIPS音訊技術是由來自瑞典的全球頂尖的語音處理高科技公司--"GLOBAL IP SOUND"提供的專用於網際網路的語音壓縮引擎系統。GIPS技術可根據頻寬狀況自動調節編碼位元速率,提供低位元速率高質量的音訊。GIPS的核心技術(網路自 適應演算法,丟包補償演算法和回聲消除演算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果。









15.SILK

  • 型別:Audio
  • 制定者:skype(目前被Microsoft收購)
  • 支援頻寬:6-40Kbps
  • 應用領域:voip
  • 開發歷史:SILK最早在Windows版Skype的4.0版本中被披露,它成為了Skype到Skype通話的預設解碼器,實時頻寬6-40Kbps即可工作,即使丟包水平達到10%依然可以穩定維持24KHz取樣的通話音質.Skype投入了數百萬美元,耗時三年多開發了Silk,他們表示Silk可以使VoIP通話聽起來好像你和對話的人在同一間房子裡一樣。大部分電話只能傳輸3.4kHz(位元速率)的訊號,而Silk可以讓Skype傳輸高達12kHz的訊號。開放編碼器可以被看作是Skype放棄了一項競爭優勢,但是它是Skype將其服務推廣到更多裝置這一長期戰略中的一環。該公司已經有4.05億套軟體的裝機量,其中絕大部分使用者是臺式計算機使用者。免費提供其編碼器可以讓裝置製造商將Skype整合到像智慧電話、手機或移動互聯裝置中去。Skype已經開始著手將其服務推廣到其它平臺上,併發布了基於Android和支援Java手機的通話服務。該公司還和諾基亞合作將其VoIP軟體預裝到智慧手機上,例如N97。
  • Silk下載地址如下
  • http://developer.skype.com/silk/SILK_SDK_SRC_v1.0.7.zip
  • Silk標準下載地址如下
  • http://tools.ietf.org/html/draft-vos-silk-01
  • Silk的一些文件
  • http://developer.skype.com/silk


16. NICAM(Near Instantaneous Companded Audio Multiplex 準瞬時壓擴音訊複用)
型別:Audio
制定者:英國BBC廣播公司
支援頻寬:728Kbps
特性:應用範圍及其廣泛,可用它進行立體聲或雙語廣播
優點:應用範圍及其廣泛,信噪比高,動態範圍寬、音質同CD相媲美,故名麗音,因此NICAM又稱為麗音
缺點:不是Free,頻寬要求高
應用領域:voip
版稅方式:一次性付費
備註:NICAM也稱麗音,它是英文Near-Instantaneously Companded Audio Multiplex的縮寫,其含義為準瞬時壓擴音訊複用,是由英國BBC廣播公司開發研究成功的。
通俗地說NICAM技術實際上就是雙聲道數字聲技術,其應用範圍及其廣泛,最典型的應用便是電視廣播附加雙聲道數字聲技術,利用它進行立體聲或雙語廣播, 以充分利用電視訊道的頻譜資源。這是在常規電視廣播的基礎上無需增加許多投資就可以實現的。在進行立體聲廣播時,它提高了音訊的訊號質量,使其接近CD的 質量。而且還可以利用NICAM技術進行高速資料廣播及其他資料傳輸的增殖服務,這在當今的資訊化社會中似乎就顯得尤為重要了!


17. MPEG-1 audio layer 1
型別:Audio
制定者:MPEG
支援頻寬:384kbps(壓縮4倍)
特性:編碼簡單,用於數字盒式錄音磁帶,2聲道,VCD中使用的音訊壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備註:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用於數字盒式錄音磁帶
--層2(Layer 2):演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等
--層3(Layer 3):編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍


18. MUSICAM(MPEG-1 audio layer 2)
型別:Audio
制定者:MPEG
支援頻寬:256~192kbps(壓縮6~8倍)
特性:演算法複雜度中等,用於數字音訊廣播(DAB)和VCD等,2聲道,而MUSICAM由於其適當的複雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的製作、交換、儲存、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要複雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1


19. MP3(MPEG-1 audio layer 3)
型別:Audio
制定者:MPEG
支援頻寬:128~112kbps(壓縮10~12倍)
 性:編碼複雜,用於網際網路上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓 縮技術,在當時的技術條件下,MP3的複雜度顯得相對較高,編碼不利於實時,但由於MP3在低位元速率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒。
優點:壓縮比高,適合用於網際網路上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備註:同MPEG-1 audio layer 1

20. MPEG-2 audio layer
型別:Audio
制定者:MPEG
支援頻寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。
優點:支援5.1聲道和7.1聲道的環繞立體聲
缺點:
應用領域:voip
版稅方式:按個收取
備註:MPEG-2的聲音壓縮編碼採用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支援5.1聲道和7.1聲道的環繞立體聲。





























































21. AAC(Advanced Audio Coding,先進音訊編碼)
型別:Audio
制定者:MPEG
支援頻寬:96-128 kbps
特性:AAC可以支援1到48路之間任意數目的音訊聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路資料。它可同時傳送16套節目,每套節目的音訊及資料結構可任意規定。
AAC主要可能的應用範圍集中在因特網網路傳播、數字音訊廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編 碼核心去傳輸編碼頻譜資料。具有48 個主要音訊通道,16 個低頻增強通道,16 個整合資料流, 16 個配音,16 種編排。
優點:支援多種音訊聲道組合,提供優質的音質
缺點:
應用領域:voip
版稅方式:一次性收費
備註:AAC於1997年形成國際標準ISO 13818-7。先進音訊編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音訊標準(ISO/IEC13818-3)之後的新一代音訊壓縮標準。
在MPEG-2制訂的早期,本來是想將其音訊編碼部分保持與MPEG-1相容的。但後來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲 道音訊標準。理所當然地,這個標準是不相容MPEG-1的,因此被稱為MPEG-2 AAC。換句話說,從表面上看,要製作和播放AAC,都需要使用與MP3完全不同的工具。


22. Dolby AC-3
型別:Audio
制定者:美國杜比公司
支援頻寬:64kbps
特性:提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的資訊在製作和還原過程中全部數字化,資訊損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。
優點:環繞立體聲,資訊損失很少,細節豐富,具有真正的立體聲效果
缺點:
應用領域:voip
版稅方式:按個收取
 注:杜比數字AC-3(Dolby Digital AC-3):美國杜比公司開發的多聲道全頻帶聲音編碼系統,它提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的資訊在製作和還原過 程中全部數字化,資訊損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用。


23. ASPEC(Audio Spectral Perceptual Entropy Coding)
型別:Audio
制定者:AT&T
支援頻寬:64kps
特性:音訊質量獲得顯著改善,不過計算複雜度也大大提高,而且在迴響、低位元速率時聲音質量嚴重下降。
優點:音訊質量獲得顯著改善
缺點:計算複雜度的提高。塊邊界影響、預計算複雜度的提高。迴響、低位元速率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備註:變換壓縮技術


24. PAC(Perceptual Audio Coder)
型別:Audio
制定者:AT&T
支援頻寬:64kps
特性:音訊質量獲得顯著改善,不過在迴響、低位元速率時聲音質量嚴重下降。
優點:音訊質量獲得顯著改善
缺點:塊邊界影響、預迴響、低位元速率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備註:變換壓縮技術


25. HR
型別:Audio
制定者: 飛利浦
支援頻寬:8Kbps
特性:以增加GSM網路容量為目的,但是會損害語音質量;由於現在網路頻率緊缺,一些大的運營商已經在大城市密集地帶開通此方式以增加容量。
優點:系統容量大
缺點:語音質量差
應用領域:GSM
版稅方式:按個收費
備註:HF半速率,是一種GSM語音編碼方式。




























































26. FR
型別:Audio
制定者:飛利浦
支援頻寬:13Kbps
特性:是一般的GSM手機的通訊編碼方式,可以獲得達到4.1左右Qos的語音通訊質量(國際電聯規定語音通訊質量Qos滿分為5)
優點:語音質量得到了提高
缺點:系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:FR全速率,是一種GSM語音編碼方式。


27. EFR
型別:Audio
制定者:飛利浦
支援頻寬:13Kbps
特性:用於GSM手機基於全速率13Kbps的語音編碼和傳送,可以獲得更好更清晰的語音質量(接近Qos4.7),需要網路服務商開通此項網路功能,手機才能配合實現。
優點:音質好
缺點:需要網路服務商開通此項網路功能,且系統容量降低
應用領域:GSM
版稅方式:按個收費
備註:EFR增強型全速率,一種GSM網路語音的編碼方式。






















28. GSM-AMR(Adaptive Multi-Rate)
型別:Audio
制定者:飛利浦
支援頻寬:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以對語音進行替換和消音,平滑噪音,支援間斷式傳輸,對語音進行動態偵查。能在各種網路條件下提供優質的語音效果。
優點:音質出色
缺點:
應用領域:GSM
版稅方式:按個收費
 注:GSM-ASM是一種廣泛使用在GPRS和W-CDMA網路上的音訊標準。在規範ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM 2+和WCDMA的預設編碼標準,是第三代無線通訊系統的語音編碼標準。GSM-AMR標準基於ACELP(代數激勵線性預測)編碼。它能在廣泛的傳輸條 件下提供高品質的語音效果。


29. EVRC(Enhanced Variable Rate Coder,增強型可變速率編碼器)
型別:Audio
制定者:美國Qualcomm通訊公司(即高通)
支援頻寬:8Kbps或13Kbps
特性:支援三種位元速率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪聲抑制,郵件過濾。能在各種網路條件下提供優質的語音效果。
優點:音質出色
缺點:
應用領域:CDMA
版稅方式:按個收費
 注:EVRC編碼廣泛使用於CDMA網路。EVRC標準遵循規範TIA IS-127的內容。EVRC編碼基於RCELP(鬆弛碼激勵線性預測)標準。該編碼可以以Rate 1(171bits/packet),Rate 1/2(80bits/packet)或是Rate 1/8(16bits/packet)的容量進行操作。在要求下,它也能產生空包(0bits/packet)。






















30. QCELP(QualComm Code Excited Linear Predictive,受激線性預測編碼)
型別:Audio
制定者:美國Qualcomm通訊公司(即高通)
支援頻寬:8k的語音編碼演算法(可工作於4/4.8/8/9.6Kbps等固定速率上,而且可變速率地工作於800Kbps~9600Kbps之間)
 性:使用適當的門限值來決定所需速率。QCELP是一種8k的語音編碼演算法(可以在8k的速率下提供接近13k的話音壓縮質量)。這是一種可變速率話音編 碼,根據人的說話特性(大家應該能夠體會我們日常的溝通和交流時並不是一直保持某種恆定的方式講話,有間斷、有不同的聲音訊率等都是人的自然表達)而採取 的一種優化技術。
優點:話音清晰、背景噪聲小,系統容量大
缺點: 不是Free
應用領域:CDMA
版稅方式:每年支付一筆使用權費用
 注:QCELP,即QualComm Code Excited Linear Predictive(QualComm受激線性預測編碼)。美國Qualcomm通訊公司的專利語音編碼演算法,是北美第二代數字行動電話(CDMA)的 語音編碼標準(IS95)。這種演算法不僅可工作於4/4.8/8/9.6kbit/s等固定速率上,而且可變速率地工作於 800bit/s~9600bit/s之間。QCELP演算法被認為是到目前為止效率效率最高的一種演算法,它的主要特點之一,是使用適當的門限值來決定所需速率。I‘1限值懈景噪聲電平變化而變化,這樣就抑制了背景噪聲,使得即使在喧鬧的環境中,也能得到良好的話音質量, CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA採用QCELP編碼等一系列技術,具有話音清晰、背景噪聲小等優勢,其效能明顯 優於其他無線移動通訊系統,語音質量可以與有線電話媲美。 無線輻射低。









31. Apt-X
型別:Audio
制定者:Audio Processing Technology 公司
支援頻寬:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用於專業音訊領域,提供高品質的音訊。其特點是:
①採用4:1:4的壓縮與放大方案;
②硬體低複雜度;
③極低的編碼延遲;
④由單晶片實現;
⑤單聲道或立體聲編解碼;
⑥只需單裝置即可實現22.5kHz的雙通道立體聲;
⑦高達48kHz的取樣頻率;
⑧容錯性好;
⑨完整的AUTOSYNC™編解碼同步方案;
⑩低功率消耗
優點:高品質的音訊,硬體複雜度低,裝置要求低
缺點:不是Free
應用領域:voip
版稅方式:一次性付費
備註:子帶ADPCM(SB-ADPCM)技術


















32. SPEEX

型別:Audio
制定者:https://www.xiph.org/

支援取樣率:8KHz, 16KHz, 32KHz(對應窄帶,寬頻,超寬頻)

應用領域:voip

編碼:Speex編解碼器是基於CELP(Code Excited Linear Prediction)激勵線性預測編碼的,而且專門為2至44kbps的語音壓縮而設計的。是有失真壓縮,通常用0~10範圍內的質量引數來控制Speex編碼。正常情況下,複雜度為1時噪聲級會比複雜度為10時高1~2 dB(分貝),而複雜度為10的CPU需求是複雜度為1的5倍。實踐證明,最好將複雜度設定在2~4,設定較高則對非語音編碼如雙音多頻(DTMF)音質較為有用。

Speex的主要特性總結如下:

  • a. 只支援單聲道,不支援多聲道。
  • b. 只能對音訊資料進行處理,不支援音訊資料的輸入輸出,也就是不支援錄音和播放。
  • c. 支援強化立體聲編碼(Intensity Stereo Encoding)。
  • d. 支援資料包丟失隱藏(Packet Loss Concealment、PLC)。
  • e. 支援固定位元率(Constant Bit Rate、CBR)。
  • f. 支援可變位元率(Variable Bit Rate、VBR)。可大範圍改變位元率(bit-rate)(從2.15kbps到44kbps )
  • g. 支援平均位元率(Average Bit Rate、ABR)。
  • h. 支援非連續傳輸(Discontinuous transmission、DTX)。
  • i. 支援定點執行(Fixed-point implementation)。
  • j. 支援浮點執行(Floating-point implementation)。
  • k. 支援聲學回音消除(Acoustic Echo Canceller、AEC)。
  • l. 支援殘餘迴音消除(Residual Echo Canceller、REC)。
  • m. 支援噪音抑制(Noise Suppression、NS)。
  • n. 支援混響音消除(Dereverb)。
  • o. 支援自動增益控制(Automatic Gain Control、AGC)。
  • p. 支援語音活動檢測(Voice Activity Detection、VAD)。
  • q. 支援多速率(multi-rate)。
  • r. 支援嵌入式(Embedded)。
  • s. 支援重取樣(Resample)。
  • t. 開源的自由軟體,免專利,免版權。
  • u. 支援可變複雜度(0~10)
  • v. 支援定點執行

Speex庫官方網站:http://www.speex.org/

Speex庫API官方英文詳解:http://www.speex.org/docs/api/speex-api-reference/index.html

NSpeex庫(用於.Net和Silverlight的Speex庫)官方網站:http://nspeex.codeplex.com/

Speex庫目前最新的版本是Speex 1.2.0和SpeexDSP 1.2.0。

 

33. AMR(Adaptive Multi-Rate,自適應多速率)

  • 型別:Audio
    制定者: AMR由歐洲通訊標準化委員會提出,是在移動通訊系統中使用最廣泛的語音標準。MMS也採用這一格式作為聲音標準。支援機型:阿爾卡特OT756、西門子CX65等。 和ADPCM一樣,AMR並不是專門的手機鈴聲格式,AMR是被各大手機廠商廣泛認可的一種儲存手機錄音的格式。Nokia為WB-AMR格式(AWB)的鈴聲所作的商業命名,已被3GPP(The 3rd Generation Partnership Project,第三代合作伙伴計劃)選定為GSM和3G WCDMA應用的寬頻語言編解標準。
  • 作用:AMR音訊主要用於移動裝置的音訊壓縮,壓縮比非常高,但是音質比較差,主要用於語音類的音訊壓縮,不適合對音質要求較高的音樂類音訊的壓縮。
  • 應用領域:voip
  • 種類:AMR又分為兩種,一種是AMR-NB(AMR-NarrowBind),語音頻寬範圍:300-3700Hz,8KHz取樣頻率;另外一種是AMR-WB(AMR WideBand),語音頻寬範圍50-7000Hz,16KHz取樣頻率。但考慮語音的短時相關性,每幀長度均為20ms。
  • 實現原理:
  • (1)AMR-NB
  • AMR的取樣頻率為8KHz,每20ms編碼一幀,每個幀中包含160個語音樣點。
  • AMR採用的是基於代數碼激勵線性預測(ACELP)的編碼模式,編碼端提取ACELP模型引數(線性預測係數,自適應碼本和固定碼本索引及增益),解碼端接收到資料然後根據這些引數從新合成語音。TD-SCDMA中AMR-NB的實現。此編碼器運用了代數碼本線性預測(ACELP)混合編碼方式,也就是數字語音訊號中既包括若干語音特徵引數又包括部分波形編碼資訊,再運用這些特徵資訊重新合成語音訊號的過程。控制這些引數的提取數目,根據速率要求對資訊進行取捨而得到了以下8種速率,混合組成如表一所示的自適應語音編碼器。如模式AMR_12.20就提取出244位元的引數資訊,而模式AMR_4.70卻只提取了95位元資訊。根據這些位元所含的資訊量可以將其分為3類位元class 0,1和2。在通道編碼時class 0和1都將會使用迴圈冗餘校驗碼進行差錯檢驗,對於class 2則根據上一幀進行恢復。
  • (2)AMR-WB
  • AMR-WB”全稱為“Adaptive Multi-rate – Wideband”,即“自適應多速率寬頻編碼”,取樣頻率為16kHz,是一種同時被國際標準化組織ITU-T和3GPP採用的寬頻語音編碼標準,也稱為G722.2標準。AMR-WB 支援9種不同的編碼方式:6.6kb/s 8.85kb/s 12.65kb/s 14.25kb/s 15.85kb/s 18.25kb/s 19.85kb/s ,23.05kb/s,23.85kb/s,提供的語音頻寬範圍達到50~7000Hz,人聲感覺比以前更加自然、舒適和易於分辨 。
  • 特性說明:
  • a. 位元率是指將數字聲音由模擬格式轉化成數字格式的取樣率,取樣率越高,還原後的音質就越好。
  • b. 位元率值與現實音訊對照:
  • c. 16kbps=電話音質
  • d. 24kbps=增加電話音質、短波廣播、長波廣播、歐洲制式中波廣播
  • e. 40kbps=美國製式中波廣播
  • f. 56kbps=話音
  • g. 64kbps=增加話音(手機鈴聲最佳位元率設定值、手機單聲道MP3播放器最佳設定值)
  • h. 112kbps=FM調頻立體聲廣播
  • i. 128kbps=磁帶(手機立體聲MP3播放器最佳設定值、低檔MP3播放器最佳設定值)
  • j. 160kbps=HIFI高保真(中高檔MP3播放器最佳設定值)
  • k. 192kbps=CD(高檔MP3播放器最佳設定值)
  • l. 256kbps=Studio音樂工作室(音樂發燒友適用)

速率:

MOS得分:

34. OPUS

型別:Audio/Music
制定者:https://www.xiph.org/

作用:Opus可以處理各種音訊應用,包括IP語音、視訊會議、遊戲內聊天、流音樂、甚至遠端現場音樂表演。它可以從低位元率窄帶語音擴充套件到非常高清音質的立體聲音樂。

技術標準:https://tools.ietf.org/html/rfc6716

兩種聲音編碼的技術:以語音編碼為導向的SILK和低延遲的CELT。Opus可以無縫調節高低位元率。在編碼器內部它在較低位元率時使用線性預測編碼在高位元率時候使用變換編碼(在高低位元率交界處也使用兩者結合的編碼方式)。

延遲:Opus具有非常低的演算法延遲(預設為22.5 ms),非常適合用於低延遲語音通話的編碼,像是網上上的即時聲音流、即時同步聲音旁白等等,此外Opus也可以透過降低編碼位元速率,達成更低的演算法延遲,最低可以到5 ms。在多個聽覺盲測中,Opus都比MP3、AAC、HE-AAC等常見格式,有更低的延遲和更好的聲音壓縮率。

版稅方式: Opus格式是一個開源免費格式,使用上沒有任何專利或限制。

應用領域:voip

特性說明:

  • a. 6 kb/秒到510 kb/秒的位元率;單一頻道最高256 kb/秒
  • b. 取樣率從8 kHz(窄帶)到48 kHz(全頻)
  • c. 幀大小從2.5毫秒到60毫秒
  • d. 支援恆定位元率(CBR)、受約束位元率(CVBR)和可變位元率(VBR)
  • e. 支援語音(SILK層)和音樂(CELT層)的單獨或混合模式
  • f. 支援單聲道和立體聲;支援多達255個音軌(多資料流的幀)
  • g. 可動態調節位元率,音訊頻寬和幀大小
  • h. 良好的魯棒性丟失率和資料包丟失隱藏(PLC)
  • i. 浮點和定點實現

35. OGG(容器)

型別:Audio
制定者:https://www.xiph.org/

作用:ogg是一種多媒體容器,可以包含很多種音視訊格式

質量:一般見的.ogg的檔案大都ogg的vorbis音訊格式,是一種效果和MP3相媲美的音訊,我最初接觸ogg的時候,以為是純音訊,看過官網的介紹發現他是一個很強大的容器結構,xiph提供的免費的視訊Theora和音訊vorbis都是開源免費的,都包含在ogg的容器中,此外ogg也能包含很多其他音視訊,如:flac,MP3等.

36. iLBC(internet lowbitrate codec)

型別:Audio
制定者:GIPS(google)

效能:它是低位元率的編碼解碼器,提供在丟包時具有的強大的健壯性。iLBC 提供的語音音質等同於或超過 G.729 和 G.723.1,並比其它低位元率的編碼解碼器更能阻止丟包。

支援頻寬:iLBC 以13.3 kb/s (每幀30毫秒)和15.2 kb/s (每幀20毫秒)

優點: iLBC的主要優勢在於對丟包的處理能力。iLBC獨立處理每一個語音包,是一種理想的包交換網路語音編解碼。在正常情況下,iLBC會記錄下當前資料的相關引數和激勵訊號,以便在之後的資料丟失的情況下進行處理;在當前資料接收正常而之前資料包丟失的情況下,iLBC會對當前解碼出的語音和之前模擬生成的語音進行平滑處理,以消除不連貫的感覺;在當前資料包丟失的情況下,iLBC會對之前記錄下來的激勵訊號作相關處理並與隨機訊號進行混合,以得到模擬的激勵訊號,從而得到替代丟失語音的模擬語音。總的來說,和標準的低位速率編解碼相比,iLBC使用更多自然、清晰的元素,精確的模仿出原始語音訊號,被譽為更適合包交換網路使用的可獲得高語音質量的編解碼。

此外,大部分標準的低位速率編解碼,如G.723.1和G.729,僅對300Hz——3400Hz的頻率範圍進行編碼。在這個頻率範圍裡,用G.711編解碼所達到的語音質量,就是傳統PSTN網路進行語音通話的效果。iLBC充分利用了0——4000Hz的頻率頻寬進行編碼,擁有超清晰的語音質量,這大大超出傳統300Hz——3400Hz的頻率範圍。廣受歡迎的Skype網路電話的核心技術之一就是iLBC語音編解碼技術,Global IP Sound稱該編碼器語音品質優於PSTN,而且能忍受高達30%的封包損失。

總的來說,在相同的包交換通訊條件下,iLBC的語音質量效果比G.729、G.723.1以及G.711更好,聲音更加圓潤飽滿,且丟包率越高,iLBC在語音質量上的優勢就越明顯!

目前,在國際市場上已經有很多VoIP的裝置和應用廠商把iLBC整合到他們的產品中。如:Skype, Nortel等。在國內市場上,目前尚無VoIP廠家正式推出支援“iLBC”的閘道器裝置,迅時公司 率先推出支援“iLBC”的中繼閘道器和IAD裝置。

橫向對比:

 

37. ISAC(Internet Speech Audio Codec)

  • 型別:Audio
  • 制定者:GIPS(google)
  • 應用範圍:voip(曾被很多公司應用,包括AIM,QQ,Google Talk)
  • 版稅方式:FreeI
  • 取樣率支援:16khz,24khz,32khz(webrtc中程式碼)支援ABR,VBR和CBR:10kbps ~ 52kbps自適應包大小:30~60ms
  • 演算法延時:frame + 3ms。
  • 框圖如下:


常用codec綜合比較


圖1. 不同編解碼綜合對比

圖2. 不同編解碼延遲

圖3. 不同編解碼質量

 

參考資料:

1. https://www.itu.int/en/Pages/default.aspx

2https://www.xiph.org/

3Google

4. 音訊編解碼標準


學淺,偶有紕漏,望不吝指出。本內容由靈聲訊音訊-語音演算法實驗室整理創作,轉載和使用請與“靈聲訊”聯絡,聯絡方式:音訊/識別/合成演算法QQ群(696554058)


福利小貼士:
理科只是為自己插上騰飛的翅膀,文科才能讓你飛黃騰達,同意的點贊,謝謝!
贈送原創詩歌公眾號“天一色”,以饗讀者!


釋出於 2020-12-18