NaturalSpeech模型合成語音在CMOS測試中首次達到真人語音水平

語言: CN / TW / HK

(本文閱讀時間:10分鐘)

編者按:AI 合成語音如今已經屢見不鮮,然而在使用者聽來卻不能讓人產生與真人對話和閱讀般的沉浸感。不過,微軟亞洲研究院和微軟 Azure 語音團隊近日聯合推出的全新端到端語音合成模型 NaturalSpeech,在 CMOS 測試中首次達到了真人說話水準。這將近一步提升微軟 Azure 中合成語音的水平,讓所有合成聲音都惟妙惟肖。

文字到語音合成(Text to Speech,TTS)是一項根據文字生成可懂且自然的語音的計算機技術 。近年來,隨著深度學習的發展,TTS 在學術界和工業界取得了快速突破並且被廣泛應用。在 TTS 的研究和產品上,微軟一直有著深厚的積累。

在研究方面,微軟曾創新提出了多個 TTS 模型,包括基於 Transformer 的語音合成(TransformerTTS)、快速語音合成(FastSpeech 1/2、LightSpeech)、低資源語音合成(LRSpeech)、定製化語音合成(AdaSpeech 1/2/3/4)、歌聲合成(HiFiSinger)、立體聲合成(BinauralGrad)、聲碼器(HiFiNet、PriorGrad)、文字分析、說話人臉合成等,而且推出了  TTS 領域最詳盡的文獻綜述 。同時,微軟亞洲研究院還在多個學術會議上(如 ISCSLP 2021、IJCAI 2021、ICASSP 2022)舉辦了語音合成教程,並在 Blizzard 2021 語音合成比賽中推出了 DelightfulTTS,獲得了最好成績。此外,微軟還推出了開源語音研究專案 NeuralSpeech 等。

在產品方面,微軟在 Azure 認知服務中提供了強大的語音合成功能,開發人員可以藉助其中的 Neural TTS 功能將文字轉換為逼真的語音,用於眾多場景之中,例如語音助手、有聲讀物、遊戲配音、輔助工具等等。利用 Azure Neural TTS,使用者既可以直接選擇預置的音色,也可以自己錄製上傳聲音樣本自定義音色。目前,Azure Neural TTS 支援超過120種語言,包括多語言變體或方言,同時該功能也已整合到了多個微軟產品中,並且被業界諸多合作伙伴所採用。為了持續推動技術創新,提高服務質量,微軟 Azure 語音團隊與微軟亞洲研究院密切合作,讓 TTS 在不同場景下聽起來更多樣、更悅耳,也更自然。

近日,微軟亞洲研究院和微軟 Azure 語音團隊研發出了全新的 端到端 TTS 模型 NaturalSpeech ,該模型在廣泛使用的 TTS 資料集(LJSpeech 上使用 CMOS (Comparative Mean Opinion Score) 作為指標, 首次達到了與自然語音無明顯差異的優異成績 。這一創新性的科研成果未來也將整合到微軟 Azure TTS 服務中供更多使用者使用。

四大創新設計讓NaturalSpeech超越傳統TTS系統

NaturalSpeech 是一個完全端到端的文字到語音波形生成系統(見圖1),能夠彌合合成語音與真人聲音之間的質量差距。具體而言,該系統利用變分自編碼器(Variational Auto-Encoder, VAE ,將高維語音 (x) 壓縮成連續的幀級表達 z(記作後驗 q(z|x)),用於對語音波形 x(記作 p(x|z))的重構。相應的先驗(記作 p(z|y))則從文字序列 y 中獲取。

圖1:NaturalSpeech 系統概覽

考慮到來自語音的後驗比來自文字的先驗更加複雜,研究員們設計了幾個模組(見圖2),儘可能近似地對後驗和先驗進行匹配,從而通過y p(z|y) p(x|z) x實現文字到語音的合成。

  • 在音素編碼器上利用大規模音素預訓練(phoneme pre-training ,從音素序列中提取更好的表達。

  • 利用由時長預測器和上取樣層組成的完全可微分的時長模組(durator ,來改進音素的時長建模。

  • 基於流模型( flow )的雙向先驗/後驗模組(bidirectional prior/posterior ,可以進一步增強先驗 p(z|y) 以及降低後驗 q(z|x) 的複雜性。

  • 基於記憶的變分自編碼器(Memory VAE ,可降低重建波形所需的後驗複雜性。

圖2:NaturalSpeech 關鍵模組

據微軟亞洲研究院主管研究員譚旭介紹,與之前的 TTS 系統相比,NaturalSpeech 有以下幾大優勢:

1)減少訓練和推理的不匹配 。先前的級聯聲學模型/聲碼器系統和顯式時長預測都受到了訓練推理不匹配的影響。其原因在於聲碼器使用了真實的梅爾譜以及梅爾譜編碼器使用了真實的時長,而推理中使用了相應的預測值。NaturalSpeech 完全端到端文字到波形的生成以及可微時長模組,則能夠避免訓練推理的不匹配。

2)緩解了一對多的對映問題 。一個文字序列可以對應多個不同的語音表達,例如音高、持續時間、速度、停頓、韻律等方面的變化。以往的研究僅額外預測音高/時長,並不能很好地處理一對多的對映問題。NaturalSpeech 中基於記憶的 VAE 和雙向先驗/後驗則能降低後驗的複雜性並增強先驗,有助於緩解一對多的對映問題。

3)提高表達能力 。此前的 TTS 模型往往不足以從音素序列中提取良好的表達以及學習語音中複雜的資料分佈。NaturalSpeech 通過大規模音素預訓練、帶有記憶機制的 VAE、強大的生成模型(如Flow/VAE/GAN)可以學習更好的文字表達和語音資料分佈。

權威評測結果顯示:NaturalSpeech合成語音與真人聲音不相伯仲

此前的工作通常採用“平均意見分”(Mean Opinion Score, MOS)來衡量 TTS 質量。在 MOS 評測中,參與者通過聽取真人說話錄音和 TTS 的合成語音,分別對兩種聲音的特徵進行五分制評分,包括聲音質量、發音、語速和清晰度等。但是 MOS 對於區分聲音質量的差異不是非常敏感,因為參與者只是對兩個系統的每條句子單獨打分,沒有兩兩互相比較。而 CMOS(Comparative MOS)在評測過程中可以對兩個系統的句子兩兩對比並排打分,並且使用七分制來衡量差異,所以對質量差異更加敏感。

因此,在評測 NaturalSpeech 系統和真實錄音的質量時,研究員們同時進行了 MOS 和 CMOS 兩種測試(結果如表1和2所示)。在廣泛採用的 LJSpeech 資料集上的實驗評估表明,NaturalSpeech 在語句級別與真人錄音的對比上實現了-0.01 CMOS,在 Wilcoxon 符號秩檢驗中實現了 p>>0.05。這表明在這一資料集上, NaturalSpeech 首次與真人錄音無統計學意義上的顯著差異 。這個成績遠高於此前在 LJSpeech 資料集上測試的其它 TTS 系統。

表1:NaturalSpeech 和真人錄音之間的 MOS 比較,使用 Wilcoxon 秩和檢驗(Wilcoxon rank sum 來度量 MOS 評估中的 p 值。

表2:NaturalSpeech 和真人錄音之間的 CMOS 比較,使用 Wilcoxon 符號秩檢驗(Wilcoxon signed rank test 來度量 CMOS 評估中的 p 值。

下面分別展示 NaturalSpeech 合成的語音和對應的真人錄音

內容1:Maltby and Co. would issue warrants on them deliverable to the importer, and the goods were then passed to be stored in neighboring warehouses.

內容2:who had borne the Queen's commission, first as cornet, and then lieutenant, in the 10th Hussars.

瞭解更多技術細節,請參閱 NaturalSpeech 論文和 GitHub 主頁:

NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

https://arxiv.org/pdf/2205.04421.pdf

NaturalSpeech GitHub 主頁:

https://speechresearch.github.io/naturalspeech/

TTS發展道阻且長,需要業界共同打造負責任的AI

在微軟 Azure 認知服務語音首席研發總監趙晟看來,NaturalSpeech 系統首次達到了與真人錄音沒有顯著差異的效果,是 TTS 研究上的一個新的里程碑。從長遠角度來講,雖然藉助新模型能夠實現更高質量的合成語音,但這並不意味著徹底解決了 TTS 所面臨的問題。目前,TTS 仍然存在很多具有挑戰性的場景,如充滿情感的語音、長篇朗誦、即興表演的語音等,這些都需要更先進的建模技術來模擬真人語音的表現力和多變性。

隨著合成語音質量的不斷提升,確保 TTS 能被人們信賴是一個需要攻堅的問題。微軟主動採取了一系列措施來預判和降低包括 TTS 在內的人工智慧技術所帶來的風險。微軟致力於依照以人為本的倫理原則推進人工智慧的發展,早在2018年就釋出了“公平、包容、可靠與安全、透明、隱私與保障、負責”6個負責任的人工智慧原則(Responsible AI Principles),隨後又釋出負責任的人工智慧標準(Responsible AI Standards)將各項原則實施落地,並設定了治理架構確保各團隊把各項原則和標準落實到日常工作中。我們正在與全球的研究人員和學術機構合作,繼續推進負責任的人工智慧的實踐和技術。

Azure AI Neural TTS的更多功能和聲音等你來探索

Azure AI Neural TTS 目前共提供340多種聲音,支援120多個語種和方言。此外,Neural TTS 還能幫助企業以多種語言和風格,打造專屬的品牌聲音。現在,使用者可以通過 Neural TTS 試用版來探索更多功能和特色聲音。

相關連結:

  • 微軟 Azure 認知服務 TTS

    https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/

  • 微軟亞洲研究院語音相關研究

    https://speechresearch.github.io/

  • 微軟開源語音研究專案 NeuralSpeech

    https://github.com/microsoft/neuralspeech

  • NaturalSpeech 論文:NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

    https://arxiv.org/abs/2205.04421

  • Responsible AI principles from Microsoft

    https://www.microsoft.com/en-us/ai/responsible-ai

  • Our approach to responsible AI at Microsoft

    https://www.microsoft.com/en-us/ai/our-approach

  • The building blocks of Microsoft’s responsible AI program

    https://blogs.microsoft.com/on-the-issues/2021/01/19/microsoft-responsible-ai-program/

你也許還想看