帶你瞭解語音識別技術的發展歷史

語言: CN / TW / HK

作者|楊軍,單位:中國移動雄安產業研究院

Labs 導讀

語音識別相信大家並不陌生,近些年來語音識別技術的應用層出不窮,同時也更加智慧。從開始我們簡單的詢問“你是誰”,到現在可以與我們進行多輪對話,理解我們的意思甚至是心情,語音識別已經實現了長足的發展。可能大多數人覺得語音識別是近些年才出現的技術,其實不然,下面讓我們一起從語音技術的歷史展開來看。

Part 01  語音識別近70年發展史

1952年,貝爾實驗室發明了自動數字識別機,科學家對智慧語音有了模糊的概念,可能這時科學家們就已經在暢想我們如今實現的這一切。

1964年,IBM在世界博覽會上推出了數字語音識別系統,語音技術也自此走出了實驗室,為更多人知曉,貝爾實驗室的夢想也變成了更多人的夢想。

1980年,聲龍推出了第一款語音識別產品Dragon Dictate,這是第一款面向消費者的語音識別產品。雖然夢想第一次照進了現實,但其高達9000美元的售價,很大程度增加了智慧語音技術的普及難度。

1997年,IBM推出它的第一個語音識別產品Via Voice。在中國市場,IBM適配了四川、上海、廣東等地方方言,Via Voice也真正的為更多消費者接觸、使用到。

2011年,蘋果首次在iphone4s上加入智慧語音助手Siri。至此,智慧語音與手機深度繫結,進入廣大消費者的日常生活。隨後國內各大手機廠商也先後跟進,為手機消費者提供了五彩繽紛的語音識別功能。

此後,語音識別技術的應用,並沒有侷限於手機,而是擴充套件到了各種場景。從各種智慧家居,如智慧機器人、智慧電視、智慧加溼器等,到現在智慧汽車,各大傳統廠商以及造車新勢力紛紛積極佈局智慧座艙。可見智慧語音技術已經在我們的衣食住行各個方面得到了廣泛應用。

Part 02 語音識別技術簡介

語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入。語音識別技術屬於人工智慧方向的一個重要分支,涉及許多學科,如訊號處理、電腦科學、語言學、聲學、生理學、心理學等,是人機自然互動技術中的關鍵環節。

Part 03  語音識別基本流程

ASR:指自動語音識別技術(Automatic Speech Recognition),是一種將人的語音轉換為文字的技術。

NLU:自然語言理解(Natural Language Understanding, NLU)是所有支援機器理解文字內容的方法模型或任務的總稱。

NLG:自然語言生成(Natural Language Generation,NLG)是一種通過計算機在特定互動目標下生成語言文字的自動化過程,其主要目的是能夠自動化構建高質量的生成人類能夠理解的語言文字。

上圖展示了一個語音識別的基本流程,使用者發出指令後,mic收集音訊,完成聲音到波形圖的轉換,通過波形圖與人類發音的波形圖做對比,可以識別出說的具體音節,通過音節,組合成詞、句子,再結合大資料分析出說的最匹配的話,然後NLU模組開始工作,分析出這句話的意圖(intent)、域(Domain)等各種資訊。分析出意圖後開始對話管理DM(Dialog Manager),通過後臺數據查詢應該給使用者什麼反饋。然後交給NLG模組,通過查出來的資訊,生成自然語言,最後通過TTS模組,將文字轉回成波形圖並播放聲音。

上面的流程涉及到的學科、知識都比較多,由於篇幅原因,不一一展開描述,在這裡我節選出ASR來進行相對詳細些的學習。

Part 04 ASR實現原理簡單剖析

我們首先從ASR聲音源來看,當一位使用者發出指令,比如說:我愛你。這時麥克風會收集音訊到儲存裝置。我們通過音訊處理軟體(如Audacity)開啟後可以發現音訊是一段波形圖。

但是這段波形圖並沒有什麼直觀的有意義的資訊,它的高低只代表了聲音的大小,橫軸也僅僅是時間。語音識別本身是基於大資料的分析技術,分析的基礎是資料的準確,聲音大小和發音的時間長短很難有什麼統計學的意義,所以此時我們需要對音訊進行處理。(這段波形圖是四句我愛你的波形圖)。

處理的一種常用方法是傅立葉變換,通過傅立葉變換,我們可以將時間維度的波形圖,轉換成頻率維度的波形圖。

為什麼要處理成頻率的維度呢?

因為我們都知道,人類發出的聲音,能聽到的聲音大概在一個頻段內。這涉及到生物學、聲學的知識,我們人類的身體構造大致相同,這裡想當然一下,儘管有個體差異、有性別差異,我們發出的聲音的頻率相差不會很大。這樣我們就把沒有統計意義的聲音波形圖處理成了頻率圖。

但是我們的時間維度也不能丟掉,我們在將聲音分割之後(這裡涉及到聲音預處理、分幀等知識,暫不展開),可以根據本地的聲學模型做比對,看每一幀時間內發出的音素是什麼。中文的話,音素指的是我們發音的一個字母,比如“我”由兩個音素組成:w和o。

到現在我們知道了如何將聲音從音訊檔案處理成音素。之後再通過語言學、統計學等技術,結合具體語境,將音素組合成詞,將片語成句子,從而識別出使用者說的語句,ASR大致流程就完成了。

上面的方式其實屬於語音識別各種技術中較為簡單的一部分,在實際應用中可能還包括各種各樣的技術,比如聲學特徵提取的MFCC方式、上面聲音預處理的降噪、分幀、加窗、端點檢測等技術。

Part 05  語音識別及相關技術展望和我們能做的事情

隨著硬體技術提升、5G技術普及,我們可以在後端對海量的資料進行處理,依靠5G技術的穩定和低時延,為使用者提供更可靠、順暢的服務,可以預見在不久的將來,語音識別及其相關技術必將更加智慧、更加穩定。中國移動作為國內擁有絕對使用者基礎數量優勢的電信運營商,可以依靠5G優勢、規模優勢為使用者提供更好的服務,為智慧城市提供有力的保障,為國家發展作出更多的貢獻。