1370億引數、接近人類水平,谷歌對話AI模型LaMDA放出論文

語言: CN / TW / HK

機器之心報道

編輯:杜偉、陳萍

谷歌的 LaMDA 具有接近人類水平的對話質量。

語言模型可以完成不同任務,例如將一種語言翻譯成另一種語言,將長文件總結為簡短的摘要等。在眾多工中,開放域對話可能是最困難的任務之一,因為開放域對話需要模型覆蓋不同的主題。在對話任務中,模型應該遵循負責任 AI(Responsible AI)實踐,並避免做出沒有外部資訊源支援的事實陳述。

近日,超過 50 多位谷歌研究者參與撰寫的論文《 LaMDA: Language Models for Dialog Applications 》介紹了語言模型 LaMDA 的最新進展。論文概括了他們如何在安全、可靠和高質量的對話應用程式方面取得進展。LaMDA 通過微調一系列專門用於對話的、基於 Transformer 的神經語言模型構建的,具有多達 137B 個引數,模型還可以利用外部知識源進行對話。

論文地址:https://arxiv.org/pdf/2201.08239.pdf

來自谷歌大腦的論文作者之一 Romal Thoppilan 表示:LaMDA 模型使用多達 137B 個引數進行訓練,它展示了接近人類水平的對話質量以及在安全性和事實基礎方面具有顯著改進。

目標和度量

指導訓練對話模型包括兩個至關重要的因素:目標和度量。LaMDA 有三個主要目標——質量、安全和根基性(Groundedness)。

質量:谷歌將質量分解為三個維度,即合理性、特異性和趣味性 (Sensibleness, Specificity, Interestingness,SSI),由人類評估者進行評估。

合理性是指模型是否產生在對話上下文中有意義的響應(例如,沒有常識錯誤,沒有荒謬的迴應,以及與先前的迴應沒有矛盾);

特異性是通過判斷系統的響應是否特定於前面的對話上下文來衡量的,而不是適用於大多數上下文的通用迴應;

趣味性是衡量模型是否產生了富有洞察力、出乎意料或機智的迴應,因此更有可能創造更好的對話。

安全:谷歌還在開發和部署負責任 AI(Responsible AI)方面取得了重大進展。其安全度量由一組說明性的安全目標組成,這些目標捕捉模型應在對話中展示的行為。這些目標試圖限制模型的輸出,以避免任何可能對使用者造成傷害的意外結果,並避免加劇不公平的偏見。

根基性:當前這一代語言模型通常會生成看似合理但實際上與已知外部事實相矛盾的陳述。這激發了谷歌對 LaMDA 根基性的研究。不攜帶任何真實世界資訊的隨意迴應都會影響資訊性,但不會影響根基性。雖然在已知來源中建立 LaMDA 生成的響應本身並不能保證事實的準確性,但它允許使用者或外部系統根據其來源的可靠性來判斷響應的有效性。

LaMDA 預訓練與微調

在定義了目標和度量之後,谷歌描述了 LaMDA 的兩階段訓練:預訓練和微調。

LaMDA 預訓練

在預訓練階段,谷歌首先從公共對話資料和其他公共網頁文件中收集並建立了一個具有 1.56T 單詞的資料集,是用於訓練以往對話模型的單詞量的近 40 倍。在將該資料集標記為 2.81T SentencePiece token 之後,谷歌使用 GSPMD 預訓練模型,以預測句子中的所有下一個 token。預訓練的 LaMDA 模型已被廣泛應用於谷歌的自然語言處理研究中,包括程式合成、零樣本學習、風格遷移等。

LaMDA 微調

在微調階段,谷歌訓練 LaMDA,執行混合生成任務以生成對給定上下文的自然語言響應,執行關於響應是否安全和高質量的分類任務,最終生成一個兩種任務都能做的多工模型。LaMDA 生成器被訓練預測限制為兩個作者之間來回對話的對話資料集上的下一個 token,LaMDA 分類器被訓練預測使用註釋資料在上下文中生成的響應的安全與質量(SSI)評級。

對話期間,LaMDA 生成器首先在給定當前多輪對話上下文時生成幾個候選響應,然後 LaMDA 預測每個候選響應的 SSI 和安全分數。安全分數低的候選響應首先被過濾掉,剩下的候選響應根據 SSI 分數重新排名,並選擇分數最高的作為最終響應。谷歌使用 LaMDA 分類器進一步過濾掉用於生成任務的訓練資料,以增加高質量候選響應的密度。

LaMDA 生成一個候選響應並對其評分。

LaMDA 通過合理、特異和有趣的方式處理任意使用者輸入。

事實根基

雖然人們能夠使用工具並參考已建立的知識庫來檢測事實,但很多語言模型僅利用內部模型引數來獲取知識。為了提高 LaMDA 原始響應的根基性,谷歌收集並建立了人類與 LaMDA 之間對話的資料集,這些對話在適用的情況下使用檢索查詢和檢索結果進行註釋。然後,谷歌在這個資料集上微調了 LaMDA 的生成器和分類器,以學習與使用者互動期間呼叫外部資訊檢索系統,並提升響應的根基性。雖然這一工作還處於非常早期的階段,但谷歌看到了有希望的結果。

零樣本域自適應:看起來非常真實的假裝是珠穆朗瑪峰的 LaMDA 對話示例。結果表明,對話主體「珠穆拉瑪峰」提供了教育性和事實正確的響應。

評估

為了根據自己的關鍵度量來量化進展,谷歌收集來自預訓練模型、微調模型、人類評估者(即人類生成的響應)對多輪雙作者對話的響應,然後向不同的人類評估者問一系列問題,從而根據質量、安全性和根基性度量來評估這些響應。

谷歌觀察到,LaMDA 在每個維度和所有模型大小情況下都顯著優於預訓練模型,合理性、特異性和趣味性等質量度量通常會隨模型引數量提升,無論微調與否。安全性似乎無法僅從模型縮放中收益,但確實可以通過微調提升。隨著模型大小的增加,根基性也提升,這或許是因為更大的模型具備更大的記住不常見知識的能力,但微調使模型可以訪問外部知識源並有效地將記住知識的負載轉移到外部知識源。微調還可以縮小與人類水平的質量差距,儘管該模型在安全性和根基性方面的效能依然低於人類。

在合理性、特異性、趣味性、安全性、根基性和資訊性等方面比較預訓練模型(PT)、微調模型(LaMDA)和人類評估者生成對話(Human)。

使用Python快速構建基於NVIDIA RIVA的智慧問答機器人

NVIDIA Riva 是一個使用 GPU 加速,能用於快速部署高效能會話式 AI 服務的 SDK,可用於快速開發語音 AI 的應用程式。Riva 的設計旨在輕鬆、快速地訪問會話 AI 功能,開箱即用,通過一些簡單的命令和 API 操作就可以快速構建高級別的對話式 AI 服務。

2022年1月26日19:30-21:00,最新一期線上分享主要介紹:

對話式 AI 與 NVIDIA Riva 簡介

利用NVIDIA Riva構建語音識別模組

利用NVIDIA Riva構建智慧問答模組

利用NVIDIA Riva構建語音合成模組