音頻技術的下一個“熱點”,會出現在哪個領域?丨一期一會 • 音頻工程師專場

語言: CN / TW / HK

前言

音頻技術發展到今天,經歷了從模擬音頻到數字音頻到歷程。國際音頻工程師協會創建於 1948 年,中國數字音頻技術起步相對較晚,長期被國外組織和公司壟斷。隨着中國的不斷髮展、科技日益進步,經過近三十年的努力, 我們在語音識別重建、音效聲場重現、數字音頻通信等方面,積累了很多自己的音頻技術專家和學者,已經逐步縮小和西方的技術差距。

為了更好的促進行業交流,壯大音頻領域的中國力量,普及大眾對音頻技術的理解和認知,我們推出了面向音頻領域專家的「 一期一會 」活動,希望能為更多的音頻技術從業者打造一個充分交流的平台,我們欣喜地看到大家在活動中碰撞出許多有意義、有價值的思想火花,願「一期一會」能承載和點燃更多音頻技術人的夢想。

—— 聲網技術合夥人、音頻編解碼專家

@高澤華

本文基於「一期一會 • 音頻工程師專場」中討論內容整理,觀點僅供參考。

部分觀點前瞻:

● 在音頻領域,AI 解決普遍問題,算法解決個例問題,因此 AI 和傳統算法的結合是必然的。

● “熱點”的問題可能對於開發者而言意義不大,多數組織架構的利益分配機制對一線開發者往往不利。

● 空間音頻面臨的一個現實問題是,並沒有足夠多的音源素材可應用,市場上佔有率更多的設備和業務場景並不具備相應的條件。

● 從技術角度看,VoIP 有很多事可以做,但從應用場景來看,市場需求才是決定性因素。

1、音頻技術發展進入平台期

音頻技術發展已經到了一個平台期階段。神經網絡的熱潮開始消退,在音頻降噪、回聲消除、丟包補償等方面的應用都有所突破,通道技術的改進接近瓶頸,編解碼和麥克風陣列的應用尚處於嘗試階段。

長遠來看, 業務需求的積累和音頻技術的迭代一直都在驅動着領域的發展,現在面臨的問題是技術層面需要有新的突破 。在具體的場景下,例如虛擬會議、空間音頻、降噪、車載等等場景對沉浸式體驗的追求越來越明顯,這都需要工匠精神去打磨。

2、主動降噪在技術側的新突破

隨着 TWS 藍牙耳機市場的快速增長,主動降噪再次引起人們的關注。在深度學習的加持下,主動降噪(ANC)的應用範圍從智能手機、藍牙耳機等單點降噪向 PC、智能汽車、智能家居等市場擴展。但聲源分離(聲紋識別)與還原(聲場重建)、多路音頻的網絡傳輸、算法的收斂等仍是一些值得關注的問題。

無論是智能車機或智能傢俱抑或元宇宙,隨着應用場景的不斷擴展,工程師對於主動降噪關注的技術方向應該側重軟件與硬件的結合。終端設備算力的不斷提高和雲服務的日益普及也必然會為主動降噪技術提供更大的可施展空間;在越來越多的場景中,多個端側設備的協同調度(回聲抑制)正在成為新的課題。

3、市場需求決定了 VoIP 的未來

未來 VoIP 會發展到什麼程度?移動通信已經從 2G 發展到 5G 時代,VoIP 也從最初的 8k 提升到 44k 的高清通話水平。高音質也帶來了新挑戰,通話的穩定性是第一位的,網絡的切換和抖動對 VoIP 的影響也很大;在 1v1 和 N v N 的通話場景中要解決的問題也不盡相同。儘管降噪、去回聲這 2 大應用課題在學界有了一些進展,但硬件的複雜性也增大在工業界實際應用的難度。

VoIP 已經變得更場景化、多設備化,並且場景與設備的融合度更高,追求沉浸式體驗。因此在前端處理(算力)、網絡、設備的多樣性和複雜性方面存在諸多制約因素。產業界考慮的是穩定性。 從技術角度看,VoIP 有很多事可以做,但從應用場景來看,市場需求才是決定性因素。

4、陣列技術的應用迎來新場景

智能設備的發展造成未來很多單聲道的場景都會被多聲道取代,因此陣列技術的應用場景會變得越來越多。但如何選取傳聲器或揚聲器的音頻信號、怎麼評估陣列的效果以及聲場重建等方面仍面臨着挑戰(如多區域、指向性、時域濾波等)。除了實驗室環境,國內外的研究機構已經在户外音樂會、音樂廣場等領域的應用取得進展。

5、空間音頻在 RTC 領域大有可為

自從蘋果推出空間音頻後迅速成行業關注的焦點,應用場景也從耳機設備延伸到外放音響。據瞭解,蘋果在空間音頻實現方面採用的是杜比的方案。Facebook、微軟最近也都在空間音頻方面有所研究,公開的 Demo 顯示主要應用在會議場景。

由於會議場景太過複雜,在做空間音頻時到底要先做分離還是先做聲道,目前業界尚沒有統一的實現方案;在人 & 聲分離方面,選擇哪一路音頻(向用户播放給出來)主要取決於上層應用。但考慮到更多的應用場景,工程師須知,空間音頻要解決的問題既包括現實場景的模擬與對抗、也包括虛擬場景的模擬與對抗。

目前空間音頻的應用還面臨一個更為現實的問題是, 並沒有足夠多的音源素材可應用,市場上佔有率更多的設備和業務場景並不具備相應的條件 ,尤其是海量的中低端設備和短視頻應用。

另外,空間音頻在模擬現實的過程中還有一些信息丟失,對於空間音頻的質量評價也缺乏統一的標準,目前空間音頻的體驗(空間感)或者説音質並不理想。由於空間音頻的場景較多,業內公司提出了一些不同的方案,這可能會影響它的進一步應用。

6、AI 和傳統算法必然會走向結合

AI 在音頻前處理算法的熱潮持續到 2018 年前後時,發現音頻信號處理的方法在服務具體行業時遭遇了瓶頸(各類播放端的算力和能耗問題),因此更多細分行業的解決方案開始返回到之前傳統的音頻信號處理技術。 在音頻領域,AI 解決普遍問題,算法解決個例問題,因此 AI 和傳統算法的結合是必然的。

7、軟硬技術結合的廠商會更具優勢

3A 在傳統場景的應用非常成熟,在細分場景下還有許多要提高的地方。以會議場景為例,目前可改進的地方非常多(例如 AEC 的收斂問題、全雙工的體驗問題等),怎麼在細節上提升用户體驗才是重點。多人會議時,多設備、多麥克風陣列的問題不能單純靠軟件和算法去改進,硬件設備本身從底層提供支持可以補充軟件能力的不足,從而達到事半功倍的效果,未來軟硬結合的解決思路將佔具優勢。

8、工程師應正視元宇宙的亂象與機會

現階段元宇宙市場的亂象中,的確存在割韭菜的行為,但不可否認硬件設備的升級也帶來了新的場景和機會。以沉浸式音頻為例,企業混和辦公場景下,目前商用的方案造價不菲且對佈署環境(例如會議室的規格和聲學設計)有一定的要求,可落地的形態和方案仍需繼續尋找突破點。目前看,元宇宙實現的側重點是虛擬的音頻沉浸體驗,元宇宙/空間音頻如果只是為了娛樂,是不是應該在內容製作方面多發力?

9、音頻技術的下一個“熱點”在哪裏?

拋開商業行為,“熱點”的問題可能對於開發者而言意義不大,多數組織架構的利益分配機制對一線開發者往往不利。

從技術角度看,VR 和 AI 等新技術已經火過不止一次,這代表有些熱點技術存在一定的週期性,值得長期關注。例如,AI 在語音方面還有很大的發展空間,目前高校的學生受大廠影響也比較願意學,但傳統 DSP(數字音頻處理器)方向就鮮有人問津;再比如,藍牙耳機在助聽和輔聽市場的發展已初現端倪。

其他方面,當前大火的元宇宙對視頻的關注明顯多於音頻,這顯然不符合“兩條腿”走路的常識。在更多細分領域,把聲音的(語音識別、場景識別、音源識別)前端感知能力當作傳感器,結合後端邏輯實現物聯網、工農業生產、醫療等場景下的定位、識別、檢測等自動化管理,都有很廣泛的應用前景。