OpenAI 發佈新語音系統「Whisper 」,英文識別能力可接近人類水平
作者 | 黃楠
編輯 | 陳彩嫻
9月21日,OpenAI 發佈了一個名為「Whisper 」的神經網絡,聲稱其在英語語音識別方面已接近人類水平的魯棒性和準確性。
「Whisper 」式一個自動語音識別(ASR)系統,研究團隊通過使用從網絡上收集的68萬個小時多語音和多任務監督數據,來對其進行訓練。
訓練過程中研究團隊發現,使用如此龐大且多樣化的數據集可以提高對口音、背景噪音和技術語言的魯棒性。
此前有不同研究表明,雖然無監督預訓練可以顯著提高音頻編碼器的質量,但由於缺乏同等高質量的預訓練解碼器,以及特定於數據集中的微調協議,因此在一定程度上限制了模型的有效性和魯棒性;而在部分有監督的方式預訓練語音識別系統中,其表現會比單一源訓練的模型呈現出更高的魯棒性。
對此,在「Whisper 」中,OpenAI 在新數據集比現有高質量數據集總和大幾倍的基礎上,將弱監督語音識別的數量級擴展至68萬小時;同時,研究團隊還演示了在這種規模下,所訓練模型在轉移現有數據集的零射擊表現,可消除任何特定於數據集微調的影響,以實現高質量結果。
圖注:方法概述
在許多不同的語音處理任務中訓練一個序列到序列的轉換器模型,包括多語言語音識別、語音翻譯、口頭語言識別和語音活動檢測;所有任務都表示為要由解碼器預測的標記序列,允許單一模型取代傳統語音處理管道的不同階段;多任務訓練格式使用一組特殊的標記,作為任務指定者或分類目標
Whisper 架構採用一種簡單的端到端方法,通過編碼器-解碼器 Transformer 來實現:輸入音頻被分成30秒的塊,轉換成 log-Mel 頻譜圖後傳遞到編碼器。解碼器可預測相應的文本標題,並與特殊標記混合,由這些標記指導單個模型執行諸如語言識別、短語級時間戳、多語言語音轉錄和英語語音翻譯等任務。
圖注:Whisper 架構
值得一提的是,由於「Whisper 」是在一個龐大且多樣的數據集上進行,沒有針對任何特定的數據集進行微調,因此它不會擊敗專門研究 LibriSpeech 性能的模型。
此外研究團隊還發現,當在許多不同的數據集上測量「Whisper 」的零樣本性能時,「Whisper 」相比其他模型表現更加穩健,錯誤率降低了 50%。
除了足夠大的數據集規模外,「Whisper 」還支持多種語言的轉錄,以及將這些語言翻譯成英語。
當前在68萬小時音頻中,共11.7萬個小時覆蓋了96中其他語言,還包括12.5萬個小時的轉錄和翻譯數據,即大約有三分之一是非英語的。
「Whisper 」會交替執行以原始語言轉錄或翻譯成英語的任務,對此研究團隊發現,這種方法在學習語音到文本的翻譯方面特別有效,並且優於 CoVoST2 到英語翻譯零樣本的監督 SOTA。
目前,「Whisper 」已開源,可用於對語音識別方面的進一步研究。
OpenAI 創始人 Ilya Sutskever 對此表示,“終於有一個能理解我説話的可靠的語音識別系統。”
前特斯拉人工智能和自動駕駛部門負責人 Andrej Karpathy 也轉發了這一消息稱“OpenAI 正處於最好的狀態中”。
但對使用 Whisper 上,有不少用户也還存在疑慮。
網友 Vincent Lordier 提出,“此前在 GTP-3 和 Dalle-2 中出現對相關言論禁止行為,是否在使用 Whisper 時也會有, 是否會出現 Whisper 編輯/刪除用户語音的情況?”
那麼大家怎麼看?
參考鏈接:http://openai.com/blog/whisper/
更多內容,點擊下方關注:
掃碼添加 AI 科技評論 微信號,投稿&進羣:
雷峯網 (公眾號:雷峯網)
雷峯網版權文章,未經授權禁止轉載。詳情見 轉載須知 。
- 元宇宙大門前,Wi-Fi 7喊出「芝麻開門」
- 科亞醫療深脈分數在魯上市,AI技術應用落地助力“健康中國2030”
- 兩家國產EDA公司合併,瞬曜創始人傅勇加入芯華章出任CTO
- Matter協議如何讓華為、小米、蘋果共處「同一屋檐下」?
- 出海正當時,誰在奮寫全球化故事?| 2022雷峯網「產業科技 · 最具商用價值榜」
- OpenAI 發佈新語音系統「Whisper 」,英文識別能力可接近人類水平
- 「雷神」超級芯片登場,英偉達與其它AI芯片公司的算力差距再次擴大
- 騰訊雲入選《IDC MarketScape: 中國DevOps平台市場廠商評估,2022》領導者位置
- 英偉達「史詩級」自動駕駛芯片亮相!算力2000TOPS,兼容座艙娛樂功能
- 數字化下半場,雲與數據基建領域裏,誰是核心生力軍? | 2022雷峯網「產業科技 · 最具商用價值榜」
- 醫療科技擠出「泡沫」,誰在潮水中站穩了腳跟?| 2022雷峯網「產業科技 · 最具商用價值榜」
- 嘉立創CAM軟件上線,PCB CAM軟件有望實現國產替代
- 貝殼翻身
- 騰訊雲助力打造南財金融終端,推動大灣區金融信息服務發展
- Gary Marcus:文本生成圖像系統理解不了世界,離 AGI 還差得遠
- 深圳安科 IPO 被中止,中國醫療器械「黃埔軍校」錯失的黃金三十年
- NeurIPS 2022 | 創新奇智提出一種基於反標籤學習的半監督少樣本圖像分類學習方法
- Arm服務器再添新成員,英偉達Grace率先採用
- Science 評論:STEM 領域女性科學家的工資比男性低 15.55%,頂尖學者差距更大
- 化云為雨,華為云為什麼要深入經濟的“毛細血管”?