音視訊知識圖譜 2022.06

語言: CN / TW / HK

前些時間,我在知識星球上建立了一個音視訊技術社群: 關鍵幀的音視訊開發圈 ,在這裡群友們會一起做一些打卡任務。比如:週期性地整理音視訊相關的面試題,彙集一份 音視訊面試題集錦 ,你可以看看這個合集:音視訊面試題集錦。再比如:循序漸進地歸納總結音視訊技術知識,繪製一幅 音視訊知識圖譜 ,你可以看看這個合集:音視訊知識圖譜。

下面是 2022.06 月知識圖譜新增的內容節選:

1)圖譜路徑: 音訊演算法/3A

  • 回聲消除(AEC,Acoustic Echo Cancelling)

    • 回聲原因:在連麥場景,回聲是經常發生的,是必須要解決的。一般產生回聲的原因是近端的聲音被自己的麥克風採集後通過網路傳到遠端,而遠端揚聲器播放出來的聲音被麥克風採集後通過網路又重新發回近端,使得近端通話者能夠從揚聲器中聽到自己的剛才說的話,產生回聲。一般如果你聽到的回聲時間間隔在 1-2s,很可能就是這種情況。

    • 解決方案:通過自適應演算法來調整濾波器的迭代更新系數(『自適應濾波器』),估計出一個『期望訊號』,『逼近』經過實際回聲路徑的『回聲訊號』,也就是去模擬回聲訊號,然後從麥克風採集的混合訊號中『減去』這個模擬回聲,達到回聲抵消的功能。

  • 自動增益(AGC,Automatic Gain Control)

    • AGC 可以自動調節音訊採集的音量,優化採集到的聲音音量忽大忽小的問題(通常是由於發言者與麥克風的距離改變或發言者聲音變化導致)。

    • 在音視訊實時通訊中,AGC 在傳送端作為均衡器和壓限器調整推流音量,在接收端僅作為壓限器防止混音之後播放的音訊資料爆音,理論上推流端 AGC 做的足夠魯棒之後,拉流端僅作為壓限器是足夠的,有的廠家為了進一步減小混音之後不同人聲的音量差異也會再做一次 AGC。

  • 噪聲抑制(ANS,Automatic Noise Suppression)

    • ANS 可探測出背景固定頻率的雜音並消除背景噪音(例如:風扇、空調聲自動濾除),從而呈現出與會者清晰的聲音。

2)圖譜路徑: 音訊演算法/音訊演算法處理

  • 響度控制

    • 短時能量檢測:將連續音訊訊號,按固定時間(如 10ms)分成一幀幀,計算短時能量。

    • 自動增益控制(AGC)

    • 動態範圍處理(DRC)

    • 等響曲線

    • 限幅器(Limiter)

  • 變速不變調

    • WSOLA(Waveform Similarity Overlap-Add),波形相似疊加法,實現時間拉伸效果。在一定的範圍內查詢待『疊加』的音訊幀,該音訊幀要符合與原位置處音訊幀『波形最相似』的條件,符合該條件的音訊幀作為輸出幀進行輸出視訊的合成。

  • 變調不變速

    • WSOLA + 重取樣技術

  • K 歌打分

    • 用演算法(比如 YIN)提取基頻,跟原始頻率比較。只能判斷準不準,不能判斷好不好聽(音色相關,比較主觀)。

  • 自動混響

    • 模擬反射。重複,延時,反射率。

  • 均衡器

    • 改變各頻段的能量分佈,聽感上音色會有些變化。

  • 智慧美聲

    • 用原聲音色資料替換變調後的音色資料,避免變調後的音色發生改變。

  • 身份識別

    • 訓練一個模型(GE2E)提取與身份相關的音色特徵資料。

  • 聲音克隆

  • 無參考評價

3)圖譜路徑: 渲染/全景視訊/投影格式

  • ERP,Equi-Rectangular Projection,等距柱狀投影。目前應用最為廣泛的一種 VR 視訊投影方式。最初是公元前 100 年古希臘航海家馬裡諾·迪·蒂洛為了繪製地圖而發明的。

    • 投影方式:這種投影方式把地球的經線對映成間距相等的垂直線,把地球的緯線對映成間距相等的水平線,則可生成一幅橫縱比為 2:1 的地圖。在全景影象及視訊中,等距柱狀投影的實現思路是用相同數量的取樣點儲存每條緯線上的資料,從而得到對應的二維平面上的矩形視訊。

    • 特點:這種投影方式對映關係簡單,即使是投影后的二維平面視訊也很直觀,方便使用者觀察。但對球形視訊每條緯線上都用相同數量的取樣點,導致越靠近兩極的緯線其冗餘取樣點數量就越多。例如在兩極處,本來只需要一個取樣點,但卻用了和赤道處同樣多的取樣點,冗餘資料量最大。這種方法增大了視訊所佔空間,給視訊傳輸過程帶來很大問題;畫素密度分佈極度不均勻的同時還引入了相當嚴重的影象拉伸,導致了非常高的失真。因為最終視訊畫質是由原始素材畫質和拉伸後視訊畫質共同決定的,所以採用這種方法得到的視訊畫質較差。

  • EAP,Equal-area Projection,圓柱等面積投影。指的是 Cylindrical Equal-area Projection,是一系列的圓柱等面積投影。

    • 投影方式:這種投影方式將經線對映為等間隔的垂直線,緯線對映為水平線(非等間距)。可以想象為,將球面對映到一個圓柱面上並將圓柱面展開。

    • 特點:在全景視訊中,連續投影主要為 ERP 和 EAP,很明顯,他們兩者主要區別於平面座標 y 與球面座標 φ 的對映關係。ERP 的緯線被投影為等間隔的水平線,而 EAP 不是,因為 EAP 保證了投影的等面積。但兩者都存在拉伸問題,引入了較大的冗餘。這種投影方式在赤道處無失真,即赤道為標準緯線,失真向兩極迅速遞增。像任何圓柱投影一樣,遠離赤道拉伸越嚴重。兩極將一點拉伸為一條線,產生了無限的失真。

  • AEP,Adjusted Equal-area Projection。

    • 投影方式:Adjusted EAP 是在 JVET-G0051 會議上制定的針對 EAP 投影方式的改進,在 360Lib-4.0 版本中直接替代了原有的 EAP 方式。事實上,EAP 是 AEP 的在投影引數 β=1 時的一種特定情形。

    • 特點:在下圖中,通過對比左圖(a)與右圖(b),可以看出在北半球的區域(房屋屋頂),AEP(β=1/1.4)的圖形扭曲程度遠遠小於 EAP,進一步提高了 EAP 的投影質量。

  • ECP,Equatorial Cylindrical Projection,赤道圓柱投影。

    • 投影方式:赤道圓柱投影(ECP)和等距圓柱投影(ERP)的投影方式相同,同樣是將地球的經線對映成間距相等的垂直線,把地球的緯線對映成間距相等的水平線,詳情可見 ERP 投影方式。在 ECP 的投影方式中,將投影獲得的ERP二維平面劃分為6個面積相等的區域,劃分及其效果圖如下圖 ECP-1 所示。預設情況下,下圖中 ECP-2 顯示的 3x2 佈局格式為 ECP 的佈局方式。編號為 0 和 1 的投影面分別跨度 30 緯度和 360 個經度值 360 經度,編號為 2、3、4、5 的投影面分別跨度 120 緯度和 90 經度。

    • 特點:赤道圓柱投影方式的效果圖如下圖 ECP-3 所示。ECP 的 3x2 框架中編號為 2、3、4、5 的投影面內的影象展示效果較好,他們顯示的是球面赤道附近的曲面區域,若球面赤道附近的曲面為重要的影象區域,則使用 ECP 的投影方式十分合適,但是在編號為 0、1 的投影平面內,ECP 投影將 ERP 兩極區域的平面進行了壓縮與拉伸,使得平面分佈不均勻,並且上下兩個片面間存在一條不連續的直線。

下面是 2022.06 月的知識圖譜新增內容快照(圖片被平臺壓縮不夠清晰,可以加文章後面微信索要清晰原圖):

2022.06 知識圖譜新增內容

如果你也對音視訊技術感興趣,比如,符合下面的情況:

  • 在校大學生 → 學習音視訊開發

  • iOS/Android 客戶端開發 → 轉入音視訊領域

  • 直播/短視訊業務開發 → 深入音視訊底層 SDK 開發

  • 音視訊 SDK 開發 → 提升技能,解決優化瓶頸

可以長按識別或掃描下面二維碼,瞭解一下這個社群,根據自己的情況按需加入:

識別二維碼加入我們