明略科技Blockformer語音識別模型在AISHELL-1測試集上取得SOTA結果

語言: CN / TW / HK

深度學習已成功應用於語音識別,各種神經網路被大家廣泛研究和探索,例如,深度神經網路(Deep Neural Network,DNN)、卷積神經網路(Convolutional Neural Network,CNN)、迴圈神經網路(Recurrent Neural Network,RNN)和端到端的神經網路模型。

目前,主要有三種端到端的模型框架:神經網路感測器(Neural Transducer,NT),基於注意力的編碼器-解碼器(Attention-based Encoder Decoder,AED)和連線時序分類(Connectionist Temporal Classification,CTC)。

NT是CTC的增強版本,引入了預測網路模組,可類比傳統語音識別框架中的語言模型,解碼器需要把先前預測的歷史作為上下文輸入。NT訓練不穩定,需要更多記憶體,這可能會限制訓練速度。

AED由編碼器,解碼器和注意力機制模組組成,前者對聲學特徵進行編碼,解碼器生成句子,注意力機制用來對齊編碼器輸入特徵和解碼狀態。業內不少ASR系統架構基於AED。然而,AED模型逐個單元輸出,其中每個單元既取決於先前生成的結果,又依賴後續的上下文,這會導致識別延遲。

另外,在實際的語音識別任務中,AED的注意力機制的對齊效果,有時也會被噪聲破壞。

CTC的解碼速度比AED快,但是由於輸出單元之間的條件獨立性和缺乏語言模型的約束,其識別率有提升空間。

目前有一些關於融合AED和CTC兩種框架的研究,基於編碼器共享的多工學習,使用CTC和AED目標同時訓練。在模型結構上,Transformer已經在機器翻譯,語音識別,和計算機視覺領域顯示了極大的優勢。

明略科技的語音技術負責人朱會峰介紹,明略團隊重點研究了在CTC和AED融合訓練框架下,如何使用Transformer模型來提高識別效果。

明略團隊通過視覺化分析了不同BLOCK和HEAD之間的注意力資訊,這些資訊的多樣性是非常有幫助的,編碼器和解碼器中每個BLOCK的輸出資訊並不完全包含,也可能是互補的。(https://doi.org/10.48550/arXiv.2207.11697)

基於這種洞察,明略團隊提出了一種模型結構,Block-augmentedTransformer(BlockFormer),研究瞭如何以引數化的方式互補融合每個塊的基本資訊,實現了Weighted Sum of the Blocks Output(Base-WSBO)和Squeeze-and-Excitation moduletoWSBO(SE-WSBO)兩種block整合方法。

BlockfomerwithBase-WSBO

SE-WSBO

實驗證明,Blockformer模型在中文普通話測試集(AISHELL-1)上,不使用語言模型的情況下實現了4.35%的CER,使用語言模型時達到了4.10%的CER。

AISHELL-1是希爾貝殼開源的中文普通話語音資料庫,錄音時長178小時,由400名中國不同地域說話人進行錄製。Papers with Code網站顯示,Blockformer在AISHELL-1上取得SOTA的識別效果,字錯率降低到4.10%(使用語言模型時)( https://paperswithcode.com/sota/speech-recognition-on-aishell-1

明略科技集團CTO郝傑表示,明略的會話智慧產品針對基於線上企微會話和線下門店會話的銷售場景,語音識別團隊聚焦美妝、汽車、教育等行業的場景優化和定製訓練,但是也不放鬆對通用語音識別新框架、新模型的探索,Blockformer模型的這個SOTA效果為語音識別的定製優化提供了一個高起點。

「其他文章」