未來十年,AI 語音識別將朝著這五個方向發展

語言: CN / TW / HK

作者 | Migüel Jetté

編譯 | bluemin

編輯 | 陳彩嫻

在過去的兩年中,自動語音識別(Automatic Speech Recognition, ASR)在商用上取得了重要的發展,其中一個衡量指標就是:

多個完全基於神經網路的企業級 ASR 模型成功上市, 如 Alexa、Rev、AssemblyAI、ASAPP等。

2016年,微軟研究院發表了一篇文章,宣佈他們的模型在已有25年曆史的“Switchboard”資料集上,達到了人類水平(通過單詞錯誤率來衡量)。

ASR 的準確性仍在不斷提高,在更多的資料集和用例中逐漸達到人類水平。

圖源:Awni Hannun 的博文 “Speech Recognition is not Solved”

隨著 ASR 技術的識別準確度大幅提升,同時應用場景越來越豐富,我們相信:現在還不是 ASR 商用的巔峰,該領域的研究與市場應用還有待發掘。

我們預計未來十年 AI 語音的相關研究和商業系統將重點攻克以下五個領域 :

1

多語言ASR模型

“在未來十年,我們將在生產環境中部署真正的多語言模型,使開發人員能夠構建任何人都能理解任意語言的應用程式,從而真正向全世界釋放語音識別的力量。”

圖源:Alexis Conneau 等人在 2020 年發表的“Unsupervised cross-lingual representation learning for speech recognition”論文

如今的商用 ASR 模型主要使用英語資料集進行訓練,因此對英語輸入具有更高的準確性。由於資料可用性和市場需求,學術界和工業界對英語的長期關注度更高。法語、西班牙語、葡萄牙語和德語等商業流行語言的識別準確度雖然也較為合理,但顯然存在一個訓練資料有限且ASR輸出質量相對較低的語言長尾。

此外,大多數商業系統都是基於單一語言,這無法適用於許多社會特有的多語言場景。多語言可以採用背靠背語言的形式,例如雙語國家的媒體節目。亞馬遜最近推出了一款整合語言識別(LID)和ASR的產品,在處理這一問題上取得了長足進步。相比之下,跨語言(也稱為語碼轉換)是個人使用的一種語言系統,該系統可以將兩種語言的單詞和語法結合在同一個句子中。這是一個學術界繼續取得有趣進展的領域。

正如自然語言處理領域採用多語言方法一樣,我們將會看到ASR在未來十年也會效仿。隨著我們學習如何利用新興的端到端技術,我們將會訓練可以在多種語言之間進行遷移學習的大規模多語言模型。Meta的XLS-R就是一個很好的例子:在一個演示中,體驗者可以說21種語言中的任何一種,而不需要指定某種語言,模型最終都會翻譯成英語。通過理解和應用語言之間的相似性,這些更智慧的ASR系統將為低資源語言和混合語言用例提供高質量的ASR可用性,並將實現商業級別的應用。

2

豐富的標準化輸出物件

“在未來十年,我們相信商業 ASR 系統將輸出更豐富的轉錄物件,其中包含的內容將不止簡單的單詞。此外,我們預計,這種更豐富的輸出將得到W3C等標準組織的認可,以便所有API都將返回類似構造的輸出。這將進一步釋放世界上每個人的語音應用潛力。”

儘管國家標準技術研究院(NIST)在探索“豐富轉錄”方面有著悠久傳統,但在將其納入ASR輸出的標準化和可擴充套件格式方面仍是淺嘗輒止。豐富轉錄的概念最初涉及大寫、標點和日記化,但在某種程度上擴充套件到說話人角色和一系列非語言性言語事件。預期的創新包括轉錄來自不同說話者、不同情緒和其他副語言特徵的重疊語音,以及一系列非語言甚至非人類的語音場景和事件,還可以轉錄基於文字或語言多樣性的資訊。Tanaka等人描繪了一個使用者可能希望在不同豐富程度的轉錄選項中進行選擇的場景,顯然,我們預測的附加資訊的數量和性質是可指定的,這取決於下游應用。

傳統的ASR系統能夠在識別口語單詞的過程中生成多個假設的網格,這些已被證明在人工輔助轉錄、口語對話系統和資訊檢索中大有裨益。在豐富的輸出格式中包含n-best資訊將鼓勵更多使用者使用ASR系統,從而改善使用者體驗。雖然目前不存在用於構建或儲存語音解碼過程中當前生成或可能生成的附加資訊的標準,但CallMiner的開放語音轉錄標準(OVTS)朝這個方向邁出了堅實的一步,使企業易於探索和選擇多個ASR供應商。

我們預測,在未來,ASR系統將以標準格式產生更豐富的輸出,從而支援更強大的下游應用程式。例如,ASR系統可能會輸出全部可能網格,並且應用程式可以在編輯轉錄內容時使用這些附加資料進行智慧自動轉錄。類似地,包括附加元資料(如檢測到的區域方言、口音、環境噪聲或情緒)的ASR轉錄可以實現更強大的搜尋應用。

3

面向所有人的大規模 ASR

“在這十年中,大規模的 ASR(即私有化、可負擔、可靠和快速)將成為每個人日常生活的一部分。這些系統將能夠搜尋視訊,索引我們參與的所有媒體內容,並使世界各地的聽力受損消費者能夠訪問每個視訊。ASR將是對每一個音訊和視訊都實現可訪問和可操作的關鍵。”

我們可能都在大量使用音視訊軟體:播客、社交媒體流、線上視訊、實時群聊、Zoom會議等等。然而相關的內容實際上很少被轉錄。如今, 內容轉錄 已經成為ASR API的最大市場之一,並將在未來十年呈指數級增長,特別是考慮到它們準確性和經濟性。話雖如此,ASR轉錄目前僅用於特定應用程式(廣播視訊、某些會議和播客等)。因此,許多人無法訪問此媒體內容,並且在廣播或活動結束後很難找到相關資訊。

在未來,這種情況將會改變。正如Matt Thompson在2010年預測的那樣,在某種程度上,ASR價格廉價並被廣泛普及,以至於我們將體驗到他所謂的“演講性”。我們預計,未來幾乎所有音訊和視訊內容都將被轉錄,並且可立即訪問、可儲存、可大規模搜尋。但ASR的發展不會到此停滯,我們還希望這些內容具有可操作性。我們希望消費或參與的每個音視訊會提供額外的上下文,例如從播客或會議中自動生成的見解,或視訊中關鍵時刻的自動總結等等,我們希望NLP系統可以將上述處理日常化。

4

人機協同

“到本世紀末,我們將擁有不斷髮展的ASR系統,它就像一個活的有機體,在人類的幫助或自我監督下不斷學習。這些系統將從現實世界中的不同渠道學習, 以實時而非非同步的方式理解新單詞和語言變體,自我除錯並自動監控不同的用法。”

隨著ASR成為主流並涵蓋越來越多的用例,人機協同將發揮關鍵作用。ASR模型的訓練很好地體現了這一點。如今,開源資料集和預訓練模型降低了ASR供應商的准入門檻。然而,訓練過程仍然相當簡單:收集資料、註釋資料、訓練模型、評估結果、改進模型。但這是一個緩慢的過程,並且在許多情況下,由於調整困難或資料不足而容易出錯。Garnerin等人觀察到,元資料缺失和跨語料庫表示的不一致性使得在ASR效能方面難以保證同等的準確性,這也是Reid和Walker在開發元資料標準時試圖解決的問題。

在未來,人類將通過智慧手段高效地監督ASR訓練,在加速機器學習方面發揮日益重要的作用。人在迴路方法將人工審查員置於機器學習/反饋迴圈中,可以對模型結果進行持續審查和調整。這會使機器學習更快、更高效,從而產生更高質量的輸出。今年早些時候,我們討論了ASR的改進如何使Rev的人工轉錄員(稱為“Revvers”)能夠對ASR草案進行後期編輯,從而提高工作效率。Revver的轉錄可以直接輸入到改進的ASR模型中,形成良性迴圈。

對於ASR,人類語言專家仍然不可或缺的一個領域是反向文字規範化(ITN),他們將識別的字串(如“five dollars”)轉換為預期的書面形式(如“$5”)。Pusateri等人提出了一種使用“手工語法和統計模型”的混合方法,Zhang等人繼續沿用這些思路,用人工製作的FST約束RNN。

5

負責任的 ASR

“與所有人工智慧系統一樣,未來的ASR系統將堅持更嚴格的人工智慧倫理原則,以便系統平等對待所有人,可解釋性程度更高、對其決策負責、並尊重使用者及其資料的隱私。”

未來的ASR系統將遵循人工智慧倫理的四項原則:公平性、可解釋性、尊重隱私和問責制。

公平性: 無論說話者的背景、社會經濟地位或其他特徵如何,公平的ASR系統都能識別語音。值得注意的是,構建這樣的系統需要識別並減少我們的模型和訓練資料中的偏差。幸運的是,政府、非政府組織和企業已經著手建立識別和減輕偏見的基礎設施。

可解釋性: ASR系統將不再是“黑盒”:它們將根據要求對資料收集與分析、模型效能與輸出過程進行解釋。這種附加的透明度要求可以對模型訓練和效能進行更好的人為監督。與Gerlings等人一樣,我們從一系列利益相關者(包括研究人員、開發人員、客戶,以及Rev案例中的轉錄學家)的角度來看待可解釋性。研究人員可能想知道輸出錯誤文字的原因,以便緩解問題;而轉錄學家可能需要一些證據來證明ASR為什麼會這麼認為,以幫助他們評估其有效性,特別是在嘈雜的情況下,ASR可能比人“聽”得更好。Weitz等人在音訊關鍵詞識別的背景下,為終端使用者實現可解釋性採取了重要的初步措施。Laguarta和Subirana已將臨床醫生指導的解釋納入用於阿爾茨海默症檢測的語音生物標記系統。

尊重隱私: 根據各種美國和國際法律,“語音”被視為“個人資料”,因此,語音記錄的收集和處理受到嚴格的個人隱私保護。在Rev,我們已經提供了資料安全和控制功能,未來的ASR系統將進一步尊重使用者資料的隱私和模型的隱私。在許多情況下,這很可能涉及將ASR模型推向邊緣(在裝置或瀏覽器上)。語音隱私挑戰正在推動這一領域的研究,許多司法管轄區,如歐盟,已經開展立法工作。隱私保護機器學習領域有望引起大家對技術這一關鍵方面的重視,使其能夠被公眾廣泛接受和信任。

問責制: 我們將對ASR系統進行監控,以確保其遵守前三項原則。反過來需要投入資源和基礎設施,以設計和開發必要的監測系統,並針對調查結果採取措施。部署ASR系統的公司將對其技術的使用負責,併為遵守ASR倫理原則做出具體努力。

值得一提的是,作為ASR系統的設計者、維護者和消費者,人類將負責實施和執行這些原則——這是人機協同的又一個示例。

參考連結:

https://thegradient.pub/the-future-of-speech-recognition/

https://awni.github.io/speech-recognition/

更多內容,點選下方關注:

掃碼新增 AI 科技評論 微訊號,投稿&進群:

雷峰網 (公眾號:雷峰網)

雷峰網版權文章,未經授權禁止轉載。詳情見 轉載須知

「其他文章」