不要指望下一個像 GPT 這樣的大型語言模型會民主化

語言: CN / TW / HK

5 月初,Meta 公司釋出了 Open Pretrained Transformer(OPT-175B),這是一個可以執行各種任務的大型語言模型(LLM)。在過去幾年中,大型語言模型已經成為人工智慧研究最熱門的領域之一。

本文最初發佈於 TeckTalks。

OPT-175B是由 OpenAI 的GPT-3引發的 LLM 軍備競賽的最新參與者。GPT-3 是一種具有 1750 億個引數的深度神經網路。GPT-3 表明,LLM 可以在沒有任何額外訓練以及只學習幾個樣本(零樣本或小樣本學習)的情況下完成許多工。微軟後來將 GPT-3 整合到了它的幾個產品中,不僅展示了 LLM 在科學研究上的前景,也展示了其在商業應用上的前景。

讓 OPT-175B 與眾不同的是 Meta 對“開放性”的承諾,正如模型的名字所暗示的那樣。Meta 已經向公眾提供了這個模型(以及一些注意事項),它還公佈了大量關於訓練和開發過程的細節。在 Meta AI 部落格上發表的一篇文章中,該公司將 OPT-175B 的釋出描述為“大規模語言模型的民主化訪問”。

Meta 朝著透明的方向發展值得稱讚。然而,大型語言模型的競爭已經達到了無法再民主化的地步。

關於該大型語言模型的幾個細節

Meta 釋出的 OPT-175B 有一些關鍵特性,包括預訓練的模型以及訓練和使用 LLM 所需的程式碼。對於沒有計算資源用於訓練模型的組織,預訓練模型特別有用(訓練神經網路比執行它們消耗的資源更多)。它有助於減少訓練大型神經網路所需的計算資源所造成的巨大碳排放量。

與GPT-3一樣,OPT 也有不同的大小,引數從 1.25 億到 1750 億不等(引數越多模型學習能力越強)。在撰寫本文時,OPT-30B 以下的所有模型都已提供下載。擁有全部 1750 億個引數的模型將僅提供給被選中的研究人員和機構(他們需要填寫一張申請表)。

根據 Meta AI 部落格,“為了保持完整性和防止濫用,我們將在非商業許可下發布我們的模型,專注於研究用例。該模型將授權給學術研究人員,與政府、民間團體和學術機構有關的組織,以及世界各地的行業研究實驗室。”

除了模型,Meta 還發布了一份完整的日誌,提供了關於該大型語言模型開發和訓練過程的詳細的技術時間線。通常,發表的論文只包含最終模型的資訊。Meta 表示,該日誌提供了一些有價值的資訊,包括“用於訓練 OPT-175B 的計算資源的數量,以及當底層基礎設施或訓練過程本身因為規模太大而變得不穩定時所需的人力開銷。”

與 GPT-3 比較

Meta 公司在其博文中指出,大型語言模型大多是通過“付費 API”訪問的,對 LLM 的限制性訪問“限制了研究人員瞭解這些大型語言模型如何工作以及為何有效的能力,妨礙了他們提高模型魯棒性以及緩解偏見和資料中毒等已知的問題”。

這對於 OpenAI(以及微軟的獨家 GPT-3 許可)無疑是一記重擊,後者將 GPT-3 作為黑盒 API 服務釋出,而不是將其模型權重和原始碼公開。OpenAI 沒有公開 GPT-3 的原因之一是控制有害應用程式的濫用和開發。

Meta 相信,把模型提供給更廣泛的受眾,他們將可以更好地研究和預防它們可能造成的任何傷害。

Meta 是這樣描述這項工作的:“我們希望,OPT-175B 將為大型語言模型建立前沿帶來更多的聲音,幫助社群共同設計負責任的釋出策略,併為該領域大型語言模型的開發增加前所未有的透明度和開放性。”

大型語言模型的成本

然而,值得注意的是,“透明和開放”並不等同於“民主化大型語言模型”。訓練、配置和執行大型語言模型的成本仍然很高,而且未來可能還會增長。

根據 Meta 的博文,模型的研究人員已經大幅降低了訓練大型語言模型的成本。該公司表示,這個模型的碳排放量已減少到 GPT-3 的七分之一。據我之前採訪過的專家估計,GPT-3 的訓練成本高達 2760 萬美元。

這意味著,OPT-175B 的訓練成本仍將高達數百萬美元。幸運的是,預訓練的模型可以避免模型訓練過程,並且 Meta 表示,他們將提供“只使用 16 塊 NVIDIA V100 GPU”就可以完成整個模型訓練和部署的程式碼庫。這相當於一臺英偉達(Nvidia)DGX-2,成本約為 40 萬美元。對於資金緊張的研究實驗室或個體研究人員來說,這不是一個小數目。(根據一篇提供了更多 OPT-175B 細節的論文,Meta 使用 992 塊 A100 80GB GPU 訓練了自己的模型,這款 GPU 明顯比 V100 快。)

Meta AI 的日誌進一步證實,訓練大型語言模型是一項非常複雜的任務。OPT-175B 的時間線上到處都是伺服器崩潰、硬體故障和其他需要高階技術人員才能解決的併發症。研究人員還不得不多次重啟訓練過程,調整超引數,修改損失函式。所有這些都會產生小型實驗室無法承擔的額外費用。

大型語言模型的未來

語言模型如 OPT 和 GPT 都是基於轉換器架構的。轉換器的關鍵特性之一是它們能夠大規模地並行處理海量時序資料(如文字)。

近年來,研究人員已經證明,增加轉換器模型的層數和引數,可以提高它們在語言任務上的效能。一些研究人員認為,達到更高的智慧水平只是一個規模問題。因此,像 Meta AI、DeepMind(由 Alphabet 擁有)和 OpenAI(由微軟支援)這樣現金充足的研究實驗室正在朝著建立越來越大的神經網路前進。

某人的觀點文章。我的看法是:現在都是規模問題了!遊戲結束了!現在只要讓這些模型更大、更安全、計算效率更高、取樣更快、記憶更智慧、模式更多樣、資料更有創新性,無論線上還是離線......1/N http://t.co/UJxSLZGc71

—— Nando de Freitas(@NandoDF)

去年,微軟和英偉達建立了一個有 5300 億個引數的語言模型,名為 Megatron-Turing (MT-NLG)。上個月,谷歌推出了路徑語言模型(PaLM)。這是一個有 5400 億個引數的 LLM。有傳言稱,OpenAI 將在未來幾個月釋出 GPT-4。

然而,神經網路越大需要的財政和技術資源也越多。雖然更大的語言模型會帶來新的東西(和新的問題),但不可避免地,它們將把權力集中在少數富有的公司手中,使得較小的研究實驗室和獨立的研究人員更難研究大型語言模型了。

在商業方面,大型科技公司將擁有更大的優勢。執行大型語言模型是非常昂貴和具有挑戰性的。像谷歌和微軟這樣的公司有特殊的伺服器和處理器,他們能夠大規模執行這些模型並從中獲利。對於比較小的公司來說,執行自己的 LLM(如 GPT-3)版本開銷太大了。正如大多數企業使用雲託管服務,而不是構建自己的伺服器和資料中心一樣,隨著大型語言模型變得越來越流行,像 GPT-3 API 這樣的開箱即用系統將越來越有吸引力。

這反過來又會使人工智慧進一步集中在大型科技公司的手中。越來越多的人工智慧研究實驗室將不得不與大型科技公司建立合作伙伴關係,以獲得資助。而這將使大型科技公司有更多的權力來決定人工智慧研究的未來方向(這可能會與他們的經濟利益相一致)。這可能要以那些短期內無法產生投資回報的研究領域為代價。

最後,當我們慶祝 Meta 為 LLM 帶來透明度的時候,請不要忘記,大型語言模型本質上就是不民主的,而是有利於推廣它們的公司。

英文原文: Can large language models be democratized?