小米AI實驗室4篇論文入選語音技術頂會INTERSPEECH 2022

語言: CN / TW / HK

滴滴——重磅訊息新鮮出爐!! 

全球語音領域頂級會議 INTERSPEECH 2022公佈了論文入選名單,小米 AI 實驗室4篇論文被接收。INTERSPEECH 是由國際語音通訊協會ISCA組織的語音領域的頂級會議之一,也是全球最大的綜合性語音領域的科技盛會,在業內享有極高的聲譽,對參與企業和單位有著嚴苛的准入門檻要求。

高手雲集的技術宴,小米工程師究竟在語音、聲學技術領域顯露哪些高招?論文亮點,都在這裡!

01 

《UniKW-AT: Unified Keyword Spotting and Audio Tagging》

《UniKw-AT:統一的喚醒和環境識別 》

作者:Dinkel H*,王永慶*,閆志勇*,張俊博,王育軍

目前市場上所使用的絕大多數智慧助手是通過喚醒被啟用。喚醒識別是在語音行業裡一個比較重要的服務。而除了喚醒以外,最近也有其他服務對使用者有所幫助,這種服務是 “環境識別” 專門給有聽力障礙的人群提供環境聲音識別的服務。但目前為止,它們依然是獨立存在的服務,即喚醒模型和環境識別模型。而在這一篇論文中,介紹了一個能夠 統一兩個任務/服務的新方法。

這個新方法的優點具體有以下幾點:

  1. 喚醒模型能理解環境, 提升喚醒模型的魯棒性*

  2. 模型小和推理 時間短適合 裝置端 執行;

  3. 降低誤喚醒率 ,特別在複雜喚醒下,如:有音樂環境音、嘈雜聲等;

  4. 喚醒時模型也可以 提供環境資訊 ,如:小愛同學+下雨聲 ,或小愛同學+孩童聲,即喚醒時可分辨出此刻發出聲音的喚醒人是兒童。

魯棒性 *:Robust的音譯,也就是健壯和強壯的意思。它也是在異常和危險情況下系統生存的能力。比如說,計算機軟體在輸入錯誤、磁碟故障、網路過載或有意攻擊情況下,能否不宕機、不崩潰,就是該軟體的魯棒性。

02 

《Exploring Representation Learning for Small-Footprint Keyword Spotting》

《基於表徵學習的語音喚醒》

作者:崔凡,郭理勇,王全東,高鵬,王育軍

這篇論文針對資料和計算資源受限的語音喚醒任務,設計了一種結合預訓練模型和對比學習的輕量級語音喚醒方法。首先,WVC(Wav2Vec constraint module)模組利用Wav2Vec預訓練模型約束喚醒模型學習幀級別的通用特徵表示;其次,LGCSiam(Local-global contrastive siamese networks) 模組提出了一種對偶自學習結構進行句級別的表徵學習。

結合以上方法,大量非同源無標籤資料可被用於喚醒模型訓練,進而提升喚醒模型的效果。實驗證明,利用同源無標註或非同源資料進行表徵學習,都能極大的提升資料受限情況下的語音喚醒效果。

此研究的主要優勢是, 基於預訓練模型的約束模組和區域性與全域性對偶學習模組來進行表徵學習,能夠提升資源受限的語音喚醒任務能力 (這裡的資源受限主要是指訓練資料有限和裝置計算資源有限)。因為獲取同源有標註的訓練資料成本較高,此方法可以利用預訓練模型,在訓練資料資源有限的情況下,提升模型的泛化性;對於裝置計算資源有限的情況,可以利用teacher-student訓練提升模型的表達能力。

03 

《BIT-MI System to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing Applications》

《針對線上會議的無參考語音質量評估系統》

作者:劉淼,王晶,徐亮,張戩騫,李世聰,相非

語音質量是通訊業務的核心體驗,對語音的線上質量監測一直以來都是行業難題之一。在本文中,研究者們結合傳統訊號處理與聽覺主觀感知機制,提出了一種新的基於深度學習神經網路,適用於線上業務的實時無參考語音通話質量評估的方法,以此對實時語音通訊進行質量評價。

經測試驗證, 此演算法與語音質量評測方法的標準基線系統相比在各項指標上都有明顯提升。 其主要應用場景針對如今需求日益增長的線上會議場景,能夠在實時通訊互動的同時對於線上通訊語音質量進行實時評估,以期改善語音通訊的質量。

本文中實時無參考語音通話質量評估方法的優勢如下:

  1. 相較於傳統的有參考質量評估方法,本演算法中採用的無參考方法能夠更好地 降低運算時延與模型開銷 提供更適用於線上會議互動任務需求的應用方案;

  2. 在主要應用場景(線上會議場景)之外,其演算法在 其他的應用場景 上具有較好的 泛化效能 對於日常通話,影片聊天,線上直播等多種場景中均有較好的適用性;

  3. 其線上實時運算的特性支援這項技術能夠 輕量級部署 在各種移動終端與智慧互聯終端上,例如車載網路、智慧家居、可穿戴裝置等,通過其低時延的語音質量監測業務提升通話質量與使用者體驗。

現階段此專案主要應用於接收端的下行質量評估,後續研發過程當中,此專案的應用場景將得到進一步擴充套件,有望應用於上行質量評價當中。

04 

《Pruned RNN-T for Fast, Memory-Efficient ASR Training》

《Pruned RNN-T: 更快更省 記憶體的訓練》

作者 : 匡方軍,郭理勇,康魏,林瓏,羅明雙,姚增偉,Daniel Povey

RNN-T是語音識別中最流行的模型之一,因其天然地支援實時識別而得到廣大研究者的青睞。然而,常規RNN-T損失函式的計算既慢又耗記憶體,這極大影響了此類模型的實用性。研究者們在本論文中提出的Pruned RNN-T損失函式可有效解決這個問題。

Pruned RNN-T的基本思想是,只計算聯合網路(Joiner)中那些對最終損失函式有顯著貢獻的(t,u)點對。為此團隊進行了兩次損失函式的計算,如圖2所示,第一次計算基於一個可快速計算的“平凡”聯合網路,研究者們利用它的輸出可求得哪些(t, u)點對是有重要貢獻的,然後,在這些重要點對上做第二次運算,得到最終的Pruned RNN-T損失函式。在整個過程中,不需要分配像(N,T,U,V)這樣大的四維矩陣,從而實現提速和減少記憶體的目的。

圖1. RNN-T和Pruned RNN-T Lattice對比

圖2. Pruned RNN-T損失函式計算流程圖

經過研究者們評測,發現與Pytorch中的RNN-T損失函式相比,Pruned RNN-T損失函式在只使用其五分之一記憶體的情況下,獲得了約15倍的計算速度提升。在實際的語音識別模型訓練中(conformer-transducer模型),與Pytorch RNN-T損失函式相比,使用Pruned RNN-T損失函式依然能將訓練速度提升1倍。這極大地降低了RNN-T模型的訓練時間,增加了RNN-T模型的實用性。

05 

在探索中超越,小米離使用者更近的語音、聲學技術是什麼?

近年來,小米在語音、聲學技術上的積累日漸成熟,並逐漸落地在小米的產品中。

從2017年到2022年,“小愛同學”已經從語音助手逐步升級為智慧生活助手,小米工程師所關注的也不止於使用者所提出的需求,更有使用者的潛在所需與具體情境。那麼,一個貼近使用者生活、尊重使用者情感的“小愛”究竟內含何種技術力量呢?

從語音技術的角度來看,小米工程師傾力於打磨小愛同學的“耳朵”和“嘴巴”,讓它能聽會說。使用自研的多麥克風“端到端”語音處理,多模態拾音,情緒感知,環境音感知,讓小愛同學能聽得更遠更清晰;自研的語音喚醒技術實現了手機端語音誤喚醒率低至0.49%。在對語音技術不斷深耕的過程中,我們不僅首發了手機聲音復刻、超級擬人語音生成技術,讓小愛同學說出更自然流利富有情感的話語;還首發了歌聲定製技術,讓使用者只需要使用20句話,就可以用自己或者自己親人的聲音合成歌曲。在這些技術的強大支撐下,小愛同學接連上線了家庭傳聲、聲紋識別、跨裝置控制、AI通話、AI讀屏以及超級擬人音色等功能。

此外,在聲學技術層面,我們開展了通話降噪、聲場控制、智慧感知、音訊處理、聲學測量等五個方向的研究工作,為小米手機及IoT全生態硬體產品提供了智慧聲學基礎演算法支撐,打造業界領先的音訊體驗。例如,強風噪音抑制技術,實現了耳機使用者在複雜聲音環境中的清晰通話,而協同喚醒的智慧多裝置應答,更是規避了“一呼百應”的問題。目前,AI通話降噪、自適應主動降噪、協同喚醒、空間音訊、協同放音、揚聲器均衡等演算法達到行業領先水平,已應用於小米手機、電視、小愛、耳機、音箱、 IoT 等60餘款產品,廣受使用者好評。

小米產品功能的不斷提升源自於小米工程師對人文關懷的追求,小愛同學不僅是機器,更是能陪伴大家的夥伴。未來,小米也將持續守護每一個使用者的生活,以更智慧的技術創造更加貼心的語音體驗,聆聽情緒,服務需求。

END