通用多模態基礎模型BEiT-3:引領文字、影象、多模態預訓練邁向“大一統”

語言: CN / TW / HK

(本文閱讀時間:15分鐘)

編者按:近年來,基礎模型(foundation models,也被稱為預訓練模型)的研究從技術層面逐漸趨向於大一統(the big convergence),不同人工智慧領域(例如自然語言處理、計算機視覺、語音處理、多模態等)的基礎模型從技術上都依賴三個方面:一是 Transformers 成為不同領域和問題的通用神經網路架構和建模方式,二是生成式預訓練(generative pre-training)成為最重要的自監督學習方法和訓練目標,三是資料和模型引數的規模化(scaling up)進一步釋放基礎模型的潛力。

技術和模型的統一將會使得 AI 模型逐步標準化、規模化,從而為大範圍產業化提供基礎和可能。通過雲部署和雲端協作,AI 將有可能真正成為像水和電一樣的“新基建”賦能各行各業,並進一步催生顛覆性的應用場景和商業模式。

近期, 微軟亞洲研究院聯合微軟圖靈團隊推出了最新升級的 BEiT-3 預訓練模型,在廣泛的視覺及視覺-語言任務上 ,包括目標檢測(COCO)、例項分割(COCO)、語義分割(ADE20K)、影象分類(ImageNet)、視覺推理(NLVR2)、視覺問答(VQAv2)、圖片描述生成(COCO)和跨模態檢索(Flickr30K,COCO)等, 實現了 SOTA 的遷移效能 。BEiT-3 創新的設計和出色的表現為多模態研究打開了新思路,也預示著 AI 大一統漸露曙光。(點選閱讀原文,檢視 BEiT-3 論文)

圖1:截至2022年8月,BEiT-3 在廣泛的視覺及視覺-語言任務上都實現了 SOTA 的遷移效能

事實上,在早期對於 AI 和深度學習演算法的探索中,科研人員都是專注於研究單模態模型,並利用單一模態資料來訓練模型。例如,基於文字資料訓練自然語言處理(NLP)模型,基於影象資料訓練計算機視覺 (CV) 模型,使用音訊資料訓練語音模型等等。然而,在現實世界中,文字、影象、語音、視訊等形式很多情況下都不是獨立存在的,而是以更復雜的方式融合呈現,因此在人工智慧的探索中,跨模態、多模態也成了近幾年業界研究的重點。

大規模預訓練正在趨向“大一統”

“近年來, 語言、視覺和多模態等領域的預訓練開始呈現大一統(big convergence)趨勢 。通過對大量資料的大規模預訓練,我們可以更輕鬆地將模型遷移到多種下游任務上。這種預訓練一個通用基礎模型來處理多種下游任務的模式已經吸引了越來越多科研人員的關注,”微軟亞洲研究院自然語言計算組主管研究員董力表示。微軟亞洲研究院看到,大一統的趨勢已經在三個方面逐漸顯現,分別是骨幹網路(backbone)、預訓練任務和規模提升。

首先,骨幹網路逐漸統一 。模型架構的統一,為預訓練的大一統提供了基礎。在這個思想指引下,微軟亞洲研究院提出了一個統一的骨幹網路 Multiway Transformer,可以同時編碼多種模態。此外,通過模組化的設計,統一架構可以用於不同的視覺及視覺-語言下游任務。受到 UniLM(統一預訓練語言模型)的啟發,理解和生成任務也可以進行統一建模。

其次,基於掩碼資料建模(masked data modeling)的預訓練已成功應用於多種模態 ,如文字和影象。微軟亞洲研究院的研究員們將影象看作一種語言,實現了以相同的方式處理文字和影象兩種模態任務的目的。自此,影象-文字對可以被用作“平行句子”來學習模態之間的對齊。通過資料的歸一化處理,還可以利用生成式預訓練來統一地進行大規模表示學習。BEiT-3 在視覺、視覺-語言任務上達到 SOTA 效能也證明了生成式預訓練的優越性。

第三,擴大模型規模和資料大小可提高基礎模型的泛化能力,從而提升模型的下游遷移能力 。遵循這一理念,科研人員逐漸將模型規模擴大到了數十億個引數,例如在 NLP 領域,Megatron-Turing NLG 模型有5300億引數,這些大模型在語言理解、語言生成等任務上都取得了更好的成效;在 CV 領域, Swin Transformer v2.0 具有30億引數,並在多個基準上重新整理了紀錄,證明了視覺大模型在廣泛視覺任務中的優勢。再加之,微軟亞洲研究院提出了將影象視為一種語言的方式,可直接複用已有的大規模語言模型的預訓練方法,從而更有利於視覺基礎模型的擴大。

BEiT:微軟亞洲研究院為視覺基礎大模型開創新方向

在 CV 領域的模型學習中,通常使用的是有監督預訓練,利用有標註的資料。但隨著視覺模型的不斷擴大,標註資料難以滿足模型需求,當模型達到一定規模時,即使模型再擴大,也無法得到更好的結果,這就是所謂的資料飢餓(data hungry) 。因此,科研人員開始使用無標註資料進行自監督學習,以此預訓練大模型引數。以往在 CV 領域,無標註資料的自監督學習常採用對比學習。但對比學習存在一個問題,就是對影象干擾操作過於依賴。當噪聲太簡單時,模型學習不到有用的知識;而對影象改變過大,甚至面目全非時,模型無法進行有效學習。所以對比學習很難把握這之間的平衡,且需要大批量訓練,對視訊記憶體和工程實現要求很高。

對此,微軟亞洲研究院自然語言計算組的研究員們提出了掩碼影象建模 (Masked Image Modeling, MIM)預訓練任務,推出了 BEiT 模型。與文字不同,影象是連續訊號,那要如何實現掩碼訓練呢?

為了解決這一問題,研究員們將圖片轉化成了兩種表示檢視。一是,通過編碼學習 Tokenizer,將影象變成離散的視覺符號(visual token),類似文字;二是,將影象切成多個小“畫素塊”(patch),每個畫素塊相當於一個字元。這樣,在用 BEiT 預訓練時,模型可以隨機遮蓋影象的部分畫素塊,並將其替換為特殊的掩碼符號[M],然後在骨幹網路 ViT 中不斷學習、預測實際圖片的樣子。在 BEiT 預訓練後,通過在預訓練編碼上新增任務層,就可以直接微調下游任務的模型引數。 在影象分類和語義分割方面的實驗結果表明,與以前的預訓練方法相比,BEiT模型獲得了更出色的結果。同時,BEiT 對超大模型(如1B或10B)也更有幫助,特別是當標記資料不足以對大模型進行有監督預訓練時。

圖2:BEiT預訓練示意圖

BEiT相關論文被 ICLR 2022 大會接收為 Oral Presentation(口頭報告論文,54 out of 3391)。ICLR 大會評審委員會認為, BEiT 為視覺大模型預訓練的研究開創了一個全新的方向,首次將掩碼預訓練應用在了 CV 領域非常具有創新性 。(瞭解更多詳情,請檢視BEiT論文原文:https://openreview.net/forum?id=p-BhZSz59o4)

圖3:BEiT論文在ICLR 2022的評審意見

(詳情請 訪問 https://openreview.net/forum?id=p-BhZSz59o4)

BEiT-3為 AI 多模態基礎大模型研究開啟新思路

在 BEiT 的基礎上,微軟亞洲研究院的研究員們在 BEiT-2 中進一步豐富了自監督學習的語義資訊(瞭解更多資訊,請檢視 BEiT-2 論文原文:https://arxiv.org/abs/2208.06366)。近日,研究員們又將其升級到了 BEiT-3。 BEiT-3 利用一個共享的 Multiway Transformer 結構,通過在單模態和多模態資料上進行掩碼資料建模完成預訓練,並可遷移到各種視覺、視覺-語言的下游任務中。

圖4:BEiT-3 預訓練示意圖

BEiT-3 的創新之處包含三個方面:

骨幹網路: Multiway Transformer。 研究員們將 Multiway Transformer 作為骨幹網路以對不同模態進行編碼。每個 Multiway Transformer 由一個共享的自注意力模組(self-attention)和多個模態專家(modality experts)組成,每個模態專家都是一個前饋神經網路(feed-forward network)。共享自注意力模組可以有效學習不同模態資訊的對齊,並對不同模態資訊深度融合編碼使其更好地應用在多模態理解任務上。根據當前輸入的模態類別,Multiway Transformer 會選擇不同模態專家對其進行編碼以學習更多模態特定的資訊。每層 Multiway Transformer 包含一個視覺專家和一個語言專家,而前三層 Multiway Transformer 擁有為融合編碼器設計的視覺-語言專家。針對不同模態統一的骨幹網路使得 BEiT-3 能夠廣泛地支援各種下游任務。如圖4所示,BEiT-3 可以用作各種視覺任務的骨幹網路,包括影象分類、目標檢測、例項分割和語義分割,還可以微調為雙編碼器用於影象文字檢索,以及用於多模態理解和生成任務的融合編碼器。

圖5:BEiT-3 可遷移到各種視覺、視覺-語言的下游任務

預訓練任務:掩碼資料建模 (m asked data modeling)。 研究員們在單模態(即影象與文字)和多模態資料(即影象-文字對)上通過統一的掩碼-預測任務進行 BEiT-3 預訓練。預訓練期間,會隨機掩蓋一定百分比的文字字元或畫素塊,模型通過被訓練恢復掩蓋的文字字元或其視覺符號,來學習不同模態的表示及不同模態間的對齊。不同於之前的視覺-語言模型通常採用多個預訓練任務, BEiT-3 僅使用一個統一的預訓練任務 ,這對於更大模型的訓練更加友好。由於使用生成式任務進行預訓練,BEiT-3 相對於基於對比學習的模型也不需要大批量訓練,從而緩解了 GPU 視訊記憶體佔用過大等問題。

擴大模型規模: BEiT-3 由40層 Multiway Transformer 組成,模型共包含19億個引數。在預訓練資料上,BEiT-3 基於多個單模態和多模態資料進行預訓練,多模態資料從五個公開資料集中收集了大約1,500萬影象和2,100萬影象-文字對;單模態資料使用了1,400萬影象和160GB文字語料。

BEiT 系列研究有一個一以貫之的思想和原則,就是我們認為從通用技術層面看影象也可視為一種‘語言’(Imglish),從而可以以統一的方式對影象、文字和影象-文字對進行建模和學習如果說  BEiT 引領和推進了生成式自監督預訓練從 NLP 到 CV 的統一,那麼,BEiT-3 實現了生成式多模態預訓練的統一,” 微軟亞洲研究院自然語言計算組首席研究員韋福如說。

BEiT-3 使用 Multiway Transformer 有效建模不同的視覺、視覺-語言任務,並通過統一的 mask data modeling 作為預訓練目標,這使得 BEiT-3 成為了通用基礎模型的重要基石。“BEiT-3 既簡單又有效,為多模態基礎模型擴充套件打開了一個新方向。接下來,我們還將持續進行對 BEiT 的研究,以促進跨語言和跨模態的遷移,推動不同任務、語言和模態的大規模預訓練甚至模型的大一統。”

多模態和通用基礎模型研究 還有更廣闊的空間等待探索

人的感知和智慧天生就是多模態的,不會侷限在文字或影象等單一的模態上。因此, 多模態是未來一個重要的研究和應用方向 。另外,由於大規模預訓練模型的進展,AI 的研究呈現出大學科趨勢,不同領域的正規化、技術和模型也在趨近大一統。跨學科、跨領域的合作將更加容易和普遍,不同領域的研究進展也更容易相互推進,從而進一步促進人工智慧領域的快速發展。

“尤其是通用基礎模型和通才模型等領域的研究,將讓 AI 研究迎來更加激動人心的機遇和發展。而技術和模型的統一會使得 AI 模型逐步標準化、規模化,進而為大範圍產業化提供基礎和可能。通過雲部署和雲端協作,AI 將有可能真正成為像水和電一樣的‘新基建’賦能各行各業,並進一步催生顛覆性的應用場景和商業模式,” 韋福如表示。

更多關於微軟亞洲研究院在大規模預訓練模型領域的研究,請訪問

https://github.com/microsoft/unilm

相關論文連結:

BEiT: BERT Pre-Training of Image Transformers

https://openreview.net/forum?id=p-BhZSz59o4

BEiT-2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

https://arxiv.org/abs/2208.06366

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks(BEiT-3)

https://arxiv.org/abs/2208.10442

你也許還想看