OpenAI 發佈新語音系統「Whisper 」，英文識別能力可接近人類水平

語言: CN / TW / HK

時間 2022-09-23 15:08:00 雷鋒網

作者 | 黃楠

編輯 | 陳彩嫻

9月21日，OpenAI 發佈了一個名為「Whisper 」的神經網絡，聲稱其在英語語音識別方面已接近人類水平的魯棒性和準確性。

「Whisper 」式一個自動語音識別（ASR）系統，研究團隊通過使用從網絡上收集的68萬個小時多語音和多任務監督數據，來對其進行訓練。

訓練過程中研究團隊發現，使用如此龐大且多樣化的數據集可以提高對口音、背景噪音和技術語言的魯棒性。

此前有不同研究表明，雖然無監督預訓練可以顯著提高音頻編碼器的質量，但由於缺乏同等高質量的預訓練解碼器，以及特定於數據集中的微調協議，因此在一定程度上限制了模型的有效性和魯棒性；而在部分有監督的方式預訓練語音識別系統中，其表現會比單一源訓練的模型呈現出更高的魯棒性。

對此，在「Whisper 」中，OpenAI 在新數據集比現有高質量數據集總和大幾倍的基礎上，將弱監督語音識別的數量級擴展至68萬小時；同時，研究團隊還演示了在這種規模下，所訓練模型在轉移現有數據集的零射擊表現，可消除任何特定於數據集微調的影響，以實現高質量結果。

圖注：方法概述

在許多不同的語音處理任務中訓練一個序列到序列的轉換器模型，包括多語言語音識別、語音翻譯、口頭語言識別和語音活動檢測；所有任務都表示為要由解碼器預測的標記序列，允許單一模型取代傳統語音處理管道的不同階段；多任務訓練格式使用一組特殊的標記，作為任務指定者或分類目標

Whisper 架構採用一種簡單的端到端方法，通過編碼器-解碼器 Transformer 來實現：輸入音頻被分成30秒的塊，轉換成 log-Mel 頻譜圖後傳遞到編碼器。解碼器可預測相應的文本標題，並與特殊標記混合，由這些標記指導單個模型執行諸如語言識別、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。