音訊技術的下一個“熱點”，會出現在哪個領域？丨一期一會 • 音訊工程師專場

語言: CN / TW / HK

時間 2022-08-22 22:40:39 聲網Agora.io的部落格

前言

音訊技術發展到今天，經歷了從模擬音訊到數字音訊到歷程。國際音訊工程師協會創建於 1948 年，中國數字音訊技術起步相對較晚，長期被國外組織和公司壟斷。隨著中國的不斷髮展、科技日益進步，經過近三十年的努力，我們在語音識別重建、音效聲場重現、數字音訊通訊等方面，積累了很多自己的音訊技術專家和學者，已經逐步縮小和西方的技術差距。

為了更好的促進行業交流，壯大音訊領域的中國力量，普及大眾對音訊技術的理解和認知，我們推出了面向音訊領域專家的「 一期一會 」活動，希望能為更多的音訊技術從業者打造一個充分交流的平臺，我們欣喜地看到大家在活動中碰撞出許多有意義、有價值的思想火花，願「一期一會」能承載和點燃更多音訊技術人的夢想。

—— 聲網技術合夥人、音訊編解碼專家

@高澤華

本文基於「一期一會 • 音訊工程師專場」中討論內容整理，觀點僅供參考。

部分觀點前瞻：

● 在音訊領域，AI 解決普遍問題，演算法解決個例問題，因此 AI 和傳統演算法的結合是必然的。

● “熱點”的問題可能對於開發者而言意義不大，多陣列織架構的利益分配機制對一線開發者往往不利。

● 空間音訊面臨的一個現實問題是，並沒有足夠多的音源素材可應用，市場上佔有率更多的裝置和業務場景並不具備相應的條件。

● 從技術角度看，VoIP 有很多事可以做，但從應用場景來看，市場需求才是決定性因素。

1、音訊技術發展進入平臺期

音訊技術發展已經到了一個平臺期階段。神經網路的熱潮開始消退，在音訊降噪、回聲消除、丟包補償等方面的應用都有所突破，通道技術的改進接近瓶頸，編解碼和麥克風陣列的應用尚處於嘗試階段。

長遠來看，業務需求的積累和音訊技術的迭代一直都在驅動著領域的發展，現在面臨的問題是技術層面需要有新的突破。在具體的場景下，例如虛擬會議、空間音訊、降噪、車載等等場景對沉浸式體驗的追求越來越明顯，這都需要工匠精神去打磨。

2、主動降噪在技術側的新突破

隨著 TWS 藍芽耳機市場的快速增長，主動降噪再次引起人們的關注。在深度學習的加持下，主動降噪（ANC）的應用範圍從智慧手機、藍芽耳機等單點降噪向 PC、智慧汽車、智慧家居等市場擴充套件。但聲源分離（聲紋識別）與還原（聲場重建）、多路音訊的網路傳輸、演算法的收斂等仍是一些值得關注的問題。

無論是智慧車機或智慧傢俱抑或元宇宙，隨著應用場景的不斷擴充套件，工程師對於主動降噪關注的技術方向應該側重軟體與硬體的結合。終端裝置算力的不斷提高和雲服務的日益普及也必然會為主動降噪技術提供更大的可施展空間；在越來越多的場景中，多個端側裝置的協同排程（回聲抑制）正在成為新的課題。

3、市場需求決定了 VoIP 的未來

未來 VoIP 會發展到什麼程度？行動通訊已經從 2G 發展到 5G 時代，VoIP 也從最初的 8k 提升到 44k 的高清通話水平。高音質也帶來了新挑戰，通話的穩定性是第一位的，網路的切換和抖動對 VoIP 的影響也很大；在 1v1 和 N v N 的通話場景中要解決的問題也不盡相同。儘管降噪、去回聲這 2 大應用課題在學界有了一些進展，但硬體的複雜性也增大在工業界實際應用的難度。

VoIP 已經變得更場景化、多裝置化，並且場景與裝置的融合度更高，追求沉浸式體驗。因此在前端處理（算力）、網路、裝置的多樣性和複雜性方面存在諸多制約因素。產業界考慮的是穩定性。從技術角度看，VoIP 有很多事可以做，但從應用場景來看，市場需求才是決定性因素。

4、陣列技術的應用迎來新場景

智慧裝置的發展造成未來很多單聲道的場景都會被多聲道取代，因此陣列技術的應用場景會變得越來越多。但如何選取傳聲器或揚聲器的音訊訊號、怎麼評估陣列的效果以及聲場重建等方面仍面臨著挑戰（如多區域、指向性、時域濾波等）。除了實驗室環境，國內外的研究機構已經在戶外音樂會、音樂廣場等領域的應用取得進展。

5、空間音訊在 RTC 領域大有可為

自從蘋果推出空間音訊後迅速成行業關注的焦點，應用場景也從耳機裝置延伸到外放音響。據瞭解，蘋果在空間音訊實現方面採用的是杜比的方案。Facebook、微軟最近也都在空間音訊方面有所研究，公開的 Demo 顯示主要應用在會議場景。

由於會議場景太過複雜，在做空間音訊時到底要先做分離還是先做聲道，目前業界尚沒有統一的實現方案；在人 & 聲分離方面，選擇哪一路音訊（向用戶播放給出來）主要取決於上層應用。但考慮到更多的應用場景，工程師須知，空間音訊要解決的問題既包括現實場景的模擬與對抗、也包括虛擬場景的模擬與對抗。

目前空間音訊的應用還面臨一個更為現實的問題是，並沒有足夠多的音源素材可應用，市場上佔有率更多的裝置和業務場景並不具備相應的條件，尤其是海量的中低端裝置和短視訊應用。

另外，空間音訊在模擬現實的過程中還有一些資訊丟失，對於空間音訊的質量評價也缺乏統一的標準，目前空間音訊的體驗（空間感）或者說音質並不理想。由於空間音訊的場景較多，業內公司提出了一些不同的方案，這可能會影響它的進一步應用。

6、AI 和傳統演算法必然會走向結合

AI 在音訊前處理演算法的熱潮持續到 2018 年前後時，發現音訊訊號處理的方法在服務具體行業時遭遇了瓶頸（各類播放端的算力和能耗問題），因此更多細分行業的解決方案開始返回到之前傳統的音訊訊號處理技術。在音訊領域，AI 解決普遍問題，演算法解決個例問題，因此 AI 和傳統演算法的結合是必然的。

7、軟硬技術結合的廠商會更具優勢

3A 在傳統場景的應用非常成熟，在細分場景下還有許多要提高的地方。以會議場景為例，目前可改進的地方非常多（例如 AEC 的收斂問題、全雙工的體驗問題等），怎麼在細節上提升使用者體驗才是重點。多人會議時，多裝置、多麥克風陣列的問題不能單純靠軟體和演算法去改進，硬體裝置本身從底層提供支援可以補充軟體能力的不足，從而達到事半功倍的效果，未來軟硬結合的解決思路將佔具優勢。

8、工程師應正視元宇宙的亂象與機會

現階段元宇宙市場的亂象中，的確存在割韭菜的行為，但不可否認硬體裝置的升級也帶來了新的場景和機會。以沉浸式音訊為例，企業混和辦公場景下，目前商用的方案造價不菲且對佈署環境（例如會議室的規格和聲學設計）有一定的要求，可落地的形態和方案仍需繼續尋找突破點。目前看，元宇宙實現的側重點是虛擬的音訊沉浸體驗，元宇宙/空間音訊如果只是為了娛樂，是不是應該在內容製作方面多發力？

9、音訊技術的下一個“熱點”在哪裡？

拋開商業行為，“熱點”的問題可能對於開發者而言意義不大，多陣列織架構的利益分配機制對一線開發者往往不利。

從技術角度看，VR 和 AI 等新技術已經火過不止一次，這代表有些熱點技術存在一定的週期性，值得長期關注。例如，AI 在語音方面還有很大的發展空間，目前高校的學生受大廠影響也比較願意學，但傳統 DSP（數字音訊處理器）方向就鮮有人問津；再比如，藍芽耳機在助聽和輔聽市場的發展已初現端倪。

其他方面，當前大火的元宇宙對視訊的關注明顯多於音訊，這顯然不符合“兩條腿”走路的常識。在更多細分領域，把聲音的（語音識別、場景識別、音源識別）前端感知能力當作感測器，結合後端邏輯實現物聯網、工農業生產、醫療等場景下的定位、識別、檢測等自動化管理，都有很廣泛的應用前景。

「其他文章」