一年一總結的NLP年度進展,2021年有哪些研究熱點?

語言: CN / TW / HK

2021 年已經過去,這一年裡,機器學習(ML)和自然語言處理(NLP)又出現了哪些研究熱點呢?谷歌研究科學家 Sebastian Ruder 的年度總結如約而至。

選自 http:// ruder.io ,作者:Sebastian Ruder,機器之心編譯,機器之心編輯部。

2021 年,ML 和 NLP 領域取得了很多激動人心的進展。在 Sebastian Ruder 的最新部落格《ML and NLP Research Highlights of 2021》中,他介紹了自己認為最具有啟發意義的論文和研究領域。

文章涵蓋了 15 個研究熱點,具體如下:

  • 通用預訓練模型
  • 大規模多工學習
  • Transformer 架構替代方案
  • 提示( prompting)
  • 高效的方法
  • 基準測試
  • 條件影象生成
  • 與自然科學結合的機器學習
  • 程式合成
  • 偏見
  • 檢索增廣
  • Token-free 模型
  • 時序自適應
  • 資料的重要性
  • 元學習

通用預訓練模型

2021 年研究者開發了更大的預訓練模型。預訓練模型可以應用於不同的領域,對 ML 研究至關重要。在計算機視覺中,有監督預訓練模型如 Vision Transformer 繼續被擴充套件,而自監督預訓練模型效能也在不斷提高。在語音方面,基於 wav2vec 2.0 模型(如 W2v-BERT),以及更強大的多語言模型(如 XLS-R)已經被構建出來。與此同時,新的統一預訓練模型可用於不同的模態(例如影片和語言等)。在視覺和語言方面,對照研究揭示了這種多模態模型的重要組成部分。此外,預訓練模型在強化學習和蛋白質結構預測等其他領域也取得了巨大進展。

為什麼預訓練模型如此重要?預訓練模型已被證明可以很好地泛化到給定領域或不同模態中。它們表現出較強的小樣本學習行為和良好的學習能力。因此,預訓練模型是進行科學研究和實際應用的重要組成部分。

下一步是什麼?我們無疑將在未來看到更多甚至更大的預訓練模型。同時,我們應該期望單個模型同時執行多個任務。在語言任務中,模型以通用的文字到文字格式構建執行不同的任務。同樣,我們可能會看到在單個模型中執行影象和語音任務的模型。最後,我們將看到更多的、針對多模態進行訓練的模型。

大規模多工學習

上一節中的大多數預訓練模型都是自監督的,它們從大量未標記的資料中學習。然而,對於許多領域,已經有大量標記資料可用,可用於學習更好的表示。到目前為止,T0、FLAN 和 ExT5 等多工模型已經在大約 100 個任務上進行了預訓練,可用於語言任務。如此大規模的多工學習與元學習密切相關。通過訪問不同的任務分配,模型可以學習不同型別的行為,比如如何在上下文中學習。

為什麼多工模型很重要?T5 、 GPT-3 等許多模型可以使用文字到文字格式,因此可以進行大規模多工學習。因此,模型不再需要手工設計的、特定於任務的損失函式或特定於任務的層,以便有效地跨多個任務學習。這些方法突出了將自監督預訓練與監督的多工學習相結合的好處,並證明了兩者的結合會產生更通用的模型。

下一步是什麼?鑑於資料集(統一格式)的可用性和開源性,我們可以想象一個良性迴圈,新建立的高質量資料集可用於不同的任務,以訓練更強大的模型,然後這些模型可以在迴圈中被用來建立更具挑戰性的資料集。

Transformer 架構替代方案

前幾節中討論的大多數預訓練模型都是基於 Transformer 架構的。2021 年出現了可替代的模型架構,這些架構是 transformer 的可行替代方案。Perceiver 是一種類似 transformer 的架構,它通過使用固定維度的潛在陣列作為其基本表示並通過交叉注意力在輸入上進行調節,從而可以擴充套件到非常高維的輸入。Perceiver IO 通過擴充套件架構,可以處理結構化的輸出空間。還有一些模型試圖替換自注意力層,最著名的是使用多層感知器 (MLPs),如 MLP-Mixer 和 gMLP。FNet 使用 1D Fourier Transforms 而不是 self-attention 在 token 級別混合資訊。一般來說,將架構與預訓練策略解耦是很有用的。如果 CNN 以與 Transformer 模型相同的方式進行預訓練,它們將在許多 NLP 任務上實現具有競爭力的效能。同樣,使用可替代的預訓練目標(例如 ELECTRA-style 的預訓練)可能會帶來更多收益。

為什麼替代 Transformer 架構很重要?如果大多數研究都集中在單一架構上,這將不可避免地導致偏見、盲點等一系列錯誤。新模型可能會解決一些 Transformer 的限制,例如注意力的計算複雜性、黑盒性質等。

下一步是什麼?雖然預訓練 transformer 會被繼續部署,作為許多工的標準基線,我們應該期待看到可替代的架構被提出。

提示(Prompting)

由於 GPT-3 的普及,使得提示( prompting)已成為 NLP 模型中一種可行的替代輸入格式。提示包括模式(即要求模型進行特定預測)和將預測轉換為類標籤的語言器(verbalizer)。PET、iPET 和 AdaPET 等幾種方法利用提示進行小樣本學習,然而,提示並不是萬能的。模型的效能因提示而異,找到最佳提示仍然需要標記示例。為了在少量設定中比較模型的可靠性,我們需要不斷的開發新的評估程式。

為什麼提示很重要?提示可用於對特定任務資訊進行編碼,根據任務的不同,這些資訊可能高達 3,500 個標記示例。因此,提示是一種將專家資訊納入模型訓練的新方法,而不是手動標記示例或定義標記函式。

下一步是什麼?目前,我們只是觸及了使用提示來改進模型學習。在以後的研究中,提示將變得更加複雜,例如包括更長的指令、正例和負例、一般啟發式。提示也可能是將自然語言解釋納入模型訓練的一種更自然的方式。

高效的方法

預訓練模型的一個缺點是,它們通常非常大,而且在實踐中效率低下。2021 年研究者帶來了更高效的架構和更高效的微調方法。在建模方面,我們可以看到幾個更有效的自注意力版本。當前預訓練模型非常強大,只需更新少量引數即可有效地調節模型,這促進了基於連續提示和介面卡(adapter)等更有效的微調方法的發展。高效的方法還可以通過學習適當的字首(prefix)或適當的轉換來適應新的模式。

為什麼高效的方法很重要?如果模型在標準硬體上執行不可行或過於昂貴,那麼它們就沒有意義。效率的提高將確保模型在變得更大的同時,對實踐人員有益並易於使用。

下一步是什麼?高效的模型和訓練方法應該變得更容易使用和更容易獲得。同時,社群應該開發更有效的方式來與大模型互動,並有效地適應、組合或修改它們,而無需從頭開始預訓練新模型。

基準測試

近來 ML 和 NLP 模型的快速改進已經超越了許多基準度量的能力。與此同時,社群評估的基準越來越少,這些基準只來自少數精英機構。因此,2021 年出現了很多能夠可靠評估此類模型的方法的實踐與討論,我在這篇博文中對此進行了介紹。

2021 年在 NLP 社群中出現的重要排行榜形式包括動態對抗性評估、社群驅動型評估(社群成員合作建立評估資料集,例如 BIG-bench)、跨多種錯誤型別的互動式細粒度評估、超越單一效能指標評估模型的多維評估 。此外,領域內針對有影響力的設定還提出了新的基準,例如小樣本評估和跨域泛化。一些用於評估通用預訓練模型的新基準也應運而生,包括用於語音、特定語言等特定模態的基準和跨模態基準。

另一方面,評估指標也是應該關注的重點。機器翻譯 (MT) 元評估顯示:儘管已經提出了 108 個具有更好人類相關性的替代指標,但在過去十年的 769 篇機器翻譯論文中,74.3% 的論文仍然僅使用了 BLEU。因此,一些研究(例如 GEM 和二維排行榜)提出聯合評估模型和方法。

基準測試和評估是機器學習和 NLP 進步的關鍵。如果沒有準確可靠的基準,就無法判斷我們是在取得真正的進步還是對根深蒂固的資料集和指標的過度擬合。

提高對基準測試的認識將使得新資料集的設計更具深思熟慮。對新模型的評估也應減少對單一效能指標的關注,而應考慮多個維度,例如模型的公平性、效率和穩健性。

條件影象生成

條件影象生成,即基於文字描述生成影象,這一領域在 2021 年取得了令人矚目的成果。圍繞最新一代的生成模型湧現出一系列進展。最新的方法不是直接基於 DALL-E 模型中的文字輸入生成影象,而是使用聯合影象文字嵌入模型(例如 CLIP)指導生成模型(例如 VQ-GAN)的輸出。基於似然的擴散模型逐漸消除了訊號中的噪聲,已成為強大的新生成模型,其效能優於 GAN。通過基於文字輸入指導其輸出,最近的模型已經可以生成逼真的影象。這類模型也特別擅長修復,可以根據描述修改影象的區域。

自動生成由使用者指導的高質量影象具有廣泛的藝術和商業應用前景,包括視覺產品的自動設計、模型輔助的設計、個性化等。

與基於 GAN 的模型相比,基於擴散的模型的取樣速度要慢得多,因此這些模型需要提高效率才能具有實際作用。此外,該領域還需要對人機互動進行更多研究,以確定此類模型幫助人類的最佳應用方式。

與自然科學結合的機器學習

2021 年,機器學習在推動自然科學方面取得了多項突破。在氣象學方面,機器學習與降水預報的結合大大提高了預測的準確性,使得模型優於最先進的物理預測模型。在生物學方面,AlphaFold 2.0 使得在不知道類似結構的情況下,也能以前所未有的準確率預測蛋白質的結構。在數學方面,ML 被證明能夠引導數學家的直覺,以發現新的聯絡和演算法。Transformer 模型也被證明經過足量資料訓練後可學習差分系統的數學特性,例如區域性穩定性。

使用 ML 促進我們對自然科學的理解和應用是其最具影響力的應用方向之一,例如藥物設計。使用模型 in-the-loop 來幫助研究人員進行科研的方向非常引人注目,這既需要開發強大的模型,也需要進行互動式機器學習和人機互動的研究。

程式合成

今年大型語言模型最引人注目的應用之一是程式碼生成,Codex 被首次整合到一個 GitHub Copilot 中。預訓練模型的其他進展包括更好的預訓練目標、擴充套件實驗等。然而,對於當前模型來說,生成複雜程式仍是一個挑戰。一個有趣的相關方向是學習執行或建模程式,通過執行多步計算來改進,其中中間計算步驟記錄在「暫存器(scratchpad)」中。

能夠自動合成複雜程式理論上對於支援軟體工程師的工作非常有用,但在實踐中程式碼生成模型在多大程度上改善了軟體工程師的工作流程仍然是一個懸而未決的問題。為了真正發揮作用,此類模型需要能夠根據新資訊更新其預測,並且需要考慮區域性和全域性語境。

偏見

鑑於大型預訓練模型的潛在影響,至關重要的一點是:此類模型不能包含有害偏見,不被濫用以生成有害內容,並以可持續的方式使用。很多業內討論都強調了此類模型的潛在風險,一些研究對性別、種族和政治傾向等受保護屬性的偏見進行了調查。然而,從模型中消除偏見需要權衡取捨。

在實際應用中使用的模型,不應表現出任何有害偏見,也不應歧視任何群體。因此,更好地理解當前模型的偏見以及消除它們對於實現 ML 模型的安全和負責任部署至關重要。

到目前為止,偏見主要見於預訓練模型、特定文字生成程式和分類應用程式。鑑於此類模型的預期用途和生命週期,我們還應該致力於識別和減輕多語言環境中的偏見,並在預訓練模型使用的各個階段(包括預訓練之後,微調後,測試時)儘可能消除偏見。

檢索增廣

檢索增廣語言模型將檢索融合到預訓練和下游使用中,在我 2020 年度研究熱點總結中就已經提及。2021 年,檢索語料庫已經擴充套件到多達萬億 token,模型也有能力查詢網頁以回答問題。此外,我們還可以看到很多將檢索融合到預訓練語言模型的新方法。

檢索增廣為何如此重要呢?由於模型需要在引數中儲存更多的知識並可以檢索它們,檢索增廣的應用使得模型具備更高的引數效率。檢索增廣還能通過更新檢索資料來實現有效的域自適應。

未來,我們可能會看到不同形式的檢索來利用不同種類的資訊,如常識、事實關係、語言資訊等。檢索增廣還可以與更多結構化形式的知識檢索相結合,比如源於知識庫群體和開放資訊提取的方法。

Token-free 模型

2021 年,新的 token-free 方法嶄露頭角,這些方法直接使用序列字元(character)。這些 token-free 模型已被證明優於多語種模型,並在非標準語言上表現非常好。因此,它們是領域內普遍使用的基於字詞的 transformer 模型的有潛力替代方案。

token-free 模型為何如此重要?自 BERT 等預訓練語言模型出現以來,由 tokenized 字片語成的文字已經成為了 NLP 中的標準輸入格式。但是,字詞 tokenization 已被證明在噪聲輸入上表現糟糕,比如在社交媒體常見的拼寫錯誤或拼法差異,或者某些型別的詞法上。此外,強制依賴 tokenization 在將模型適應新資料時表現出不匹配。

得益於更強的靈活性,token-free 模型能夠更好地建模詞法,在面對新詞和語言變化時也能泛化得很好。但是,依然不清楚的是:與基於字詞的方法相比,token-free 模型在不同型別的構詞處理上的表現如何,以及它們在哪些方面做了權衡。

時序自適應

模型根據其訓練時使用的資料,會在很多方面表現出偏見。2021 年,受到了越來越多關注的一種偏見是對模型訓練資料的時間框架(timeframe)的偏見。考慮到語言持續演化,新的術語不斷出現,在過時資料上訓練的模型已被證實泛化效能不佳。但是,時序自適應是否有用,可能取決於下游任務。比如,對於那些語言使用中事件驅動變化與任務效能無關的任務而言,時序自適應可能幫助不大。

在某些問答任務中,一個問題的答案根據問問題的時間而變化。時序自適應對於這類問答任務極其重要。

開發可以適應新時間框架的方法需要擺脫靜態的預訓練微調( pre-train–fine-tune)正規化,並需要更高效的方法來更新預訓練模型知識。在這方面,高效方法和檢索增廣都很有用。此外,我們還需要開發新的模型,使得輸入不存在於真空中,而是建立在非語言上下文和現實世界的基礎上。

資料的重要性

長期以來,資料都是 ML 至關重要的一環,但往往被建模方面的進展所掩蓋。然而,考慮到資料在模型擴充套件中的重要性,研究社群也慢慢從以模型為中心(model-centric)轉向以資料為中心(data-centric)的方法。重要的主題包括如何高效地構建和維護新資料集,以及如何保證資料質量。此外,預訓練模型使用的大規模資料集在 2021 年受到了審查,包括多模態資料集、英語和多語種文字語料庫。

資料在訓練大規模 ML 模型時至關重要,並且是模型獲取新資訊的關鍵因素。隨著模型規模越來越大,保證大規模資料的質量變得越來越具有挑戰性。

目前,對於如何高效構建用於不同任務的資料集,以及如何可靠地保證資料質量,我們在這些方面缺乏最佳實踐和原則性方法。此外,資料如何與模型學習互動以及資料如何形成模型偏見,在這些方面依然理解不深。

元學習

儘管元學習和遷移學習有著共同的目標,但主要是在不同的社群中進行研究。在一個新的基準上,大規模遷移學習方法優於元學習方法。一個有希望的發展方向是擴充套件元學習方法,結合儲存效率更高的訓練方法,提高元學習模型在現實世界基準測試中的效能。元學習方法還可以與高效的自適應方法(如 FiLM 層)相結合,使通用模型更高效地適應新的資料集。

元學習是一種重要的正規化,但在設計時未考慮到元學習系統的標準基準上未能實現 SOTA 結果。將元學習和遷移學習社群更緊密地聯絡在一起,可能會產生在現實世界應用中更有用的元學習方法。

當與用於大規模多工學習的大量自然任務相結合時,元學習特別有用。元學習還可以通過學習如何根據大量可用提示設計或使用提示,來提升提示(prompting)。

部落格連結: https:// ruder.io/ml-highlights- 2021/

「其他文章」