多模態學習有哪些架構?MBZUAI最新《多模態表示學習》綜述,29頁詳述多模態表示學習的演化、預訓練及其應用綜述

語言: CN / TW / HK

前言 本文回顧了深度多模態學習方法的演變,並討論了使主幹對各種下游任務具有魯棒性所需的預訓練的型別和目標。

本文轉載自專知

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

計算機視覺入門1v3輔導班

多模態表示學習是一種學習從不同模態及其相關性中嵌入資訊的技術,已經在視覺問答(Visual Question Answering, VQA)、視覺推理自然語言(Natural Language for Visual Reasoning, NLVR)和視覺語言檢索(Vision Language Retrieval, VLR)等領域取得了顯著的成功。在這些應用中,來自不同模態的跨模態互動和互補資訊對於高階模型執行任何多模態任務至關重要,如理解、識別、檢索或優化生成。研究人員提出了不同的方法來解決這些任務。

https://www.zhuanzhi.ai/paper/e354713123ff3c4d72713e37300d0784

基於transformer的架構的不同變體在多種模態上表現出色。本綜述介紹了關於深度學習多模態架構的進化和增強,以處理各種跨模態和現代多模態任務的文字、視覺和音訊特徵的全面文獻。本文總結了(i)最近任務特定的深度學習方法,(ii)預訓練型別和多模態預訓練目標,(iii)從最先進的預訓練多模態方法到統一架構,以及(iv)多模態任務類別和未來可能的改進,可以設計出更好的多模態學習。為新研究人員準備了一個數據集部分,涵蓋了預訓練和微調的大多數基準。最後,探討了面臨的主要挑戰、差距和潛在的研究方向。與我們的綜述相關的不斷更新的論文列表儲存在https://github.com/marslanm/multimodality-representation-learning上。

1. 引言

多模態系統利用兩個或多個輸入模態,如音訊、文字、影象或視訊,來產生與輸入不同的輸出模態。跨模態系統是多模態系統的一個分支,它利用一種模態的資訊來增強另一種模態的效能。例如,多模態系統將使用影象和文字模態來評估情況並執行任務,而跨模態系統將使用影象模態來輸出文字模態[1,2]。視聽語音識別(AVSR)[3]、檢測模因[4]中的宣傳和視覺問答(VQA)[5]都是多模態系統的例子。多模態表示學習技術通過分層處理原始異構資料來縮小不同模態之間的異構鴻溝。來自不同模態的異構特徵以上下文資訊[6]的形式提供額外的語義。因此,互補資訊可以通過多種模態學習到。例如,視覺模態可以通過在AVSR中提供[7]脣動來幫助語音識別。最近的深度學習方法的高階變體通過在表示空間中對映不同的模態,解決了經典的多模態挑戰(相關性、翻譯、對齊、融合)。

近年來,大量針對特定任務的深度學習方法提升了不同多模態任務的效能[8]。最近,由於語義豐富的表示和大規模公開可用模型[9],自然語言處理(NLP)和計算機視覺(CV)的預訓練和微調的實現得到了最大的關注。本文回顧了深度多模態學習方法的演變,並討論了使主幹對各種下游任務具有魯棒性所需的預訓練的型別和目標。大多數預訓練方法都基於Transformer,這提出了統一架構的想法,以處理所有下游任務的所有模態[10]。本綜述全面介紹了最近幾種預訓練和統一架構的方法,以及它們在基準、應用和下游任務評估上的效能。

去年,已經發表了一些關於視覺語言預訓練的研究[11,12]。相比之下,我們涵蓋了在最近的工作[13]中展示的視覺、語言和音訊預訓練模型的架構細節。除了討論預訓練型別外,我們還回顧了預訓練目標的通用和多模態版本。此外,我們總結了最近的統一架構(通用模型),這些架構消除了對不同下游任務的微調,最終減少了時間和計算複雜性。與最近的調研相反,我們更關注由視覺和音訊模式增強的NLP應用,例如情感分析、文件理解、假新聞檢測、檢索、翻譯和其他推理應用。圖1展示了本次調研中包含的深度學習多模態論文的分類百分比。該柱狀圖顯示了每年網際網路上深度學習多模態方法的發展和可用性。本次調研的貢獻如下:

我們對多模態表示學習技術進行了全面的調研,以有效的方式彌合語言、視覺和音訊輸入之間的差距。

  • 解決多模態的特定任務和基於transformer的預訓練架構的發展。

  • 詳細闡述了預訓練型別、多模態學習的高階預訓練目標、詳細的架構討論和比較。

  • 統一架構的開發,以解決所有下游任務的多種模式進行調研。

  • 我們開發了深度多模態架構和複雜多模態應用的分類。

  • 資料集部分描述了用於預訓練、微調和評估多模態方法的所有基準的綜合資訊,為初學者提供了現成的詳細資訊。

  • 最後,闡述了該領域的主要挑戰、開放缺口和可能的未來預測。

2. 多模態深度學習方法

本節介紹了多模態架構的眾多變體,主要分為特定任務架構和預訓練-微調架構(管道如圖2所示)。圖3展示了第3節的分類。第3.1節是本研究中提到的任務的首字母縮略詞。第3.2節全面總結了特定任務的方法,這些方法是近年來轉變為大規模預訓練方法的先進多模態方法的基礎。第3.3節演示了在多模態資料集上訓練的預訓練過程、型別、目標和SOTA框架,以執行增強的NLP和跨模態任務。此外,本文最後還詳細介紹了最近獲得關注的統一體系結構。第3.4小節對SOTA方法在各種多模態任務上產生的結果進行了比較討論。

3. 多模態應用

本節展示了由深度學習架構增強的多模態應用程式的分類細節,如圖4所示。多模態任務分為主要類別:理解、分類、檢索和生成。針對每個多模態應用,討論了最佳效能架構的基準、評估指標、描述和比較。

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

【技術文件】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:444129970。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

模型部署交流群:732145323。用於計算機視覺方面的模型部署、高效能運算、優化加速、技術學習等方面的交流。

其它文章

深度理解變分自編碼器(VAE) | 從入門到精通

計算機視覺入門1v3輔導班

計算機視覺交流群

用於超大影象的訓練策略:Patch Gradient Descent

CV小知識討論與分析(5)到底什麼是Latent Space?

【免費送書活動】關於語義分割的億點思考

新方案:從錯誤中學習,點雲分割中的自我規範化層次語義表示

經典文章:Transformer是如何進軍點雲學習領域的?

CVPR 2023 Workshop | 首個大規模視訊全景分割比賽

如何更好地應對下游小樣本影象資料?不平衡資料集的建模的技巧和策

Transformer交流群

經典文章:Transformer是如何進軍點雲學習領域的?

CVPR 2023 Workshop | 首個大規模視訊全景分割比賽

如何更好地應對下游小樣本影象資料?不平衡資料集的建模的技巧和策

U-Net在2022年相關研究的論文推薦

用少於256KB記憶體實現邊緣訓練,開銷不到PyTorch千分之一

PyTorch 2.0 重磅釋出:一行程式碼提速 30%

Hinton 最新研究:神經網路的未來是前向-前向演算法

聊聊計算機視覺入門

FRNet:上下文感知的特徵強化模組

DAMO-YOLO | 超越所有YOLO,兼顧模型速度與精度

《醫學影象分割》綜述,詳述六大類100多個演算法

如何高效實現矩陣乘?萬文長字帶你從CUDA初學者的角度入門

近似乘法對卷積神經網路的影響

BT-Unet:醫學影象分割的自監督學習框架

語義分割該如何走下去?

輕量級模型設計與部署總結

從CVPR22出發,聊聊CAM是如何啟用我們文章的熱度!

入門必讀系列(十六)經典CNN設計演變的關鍵總結:從VGGNet到EfficientNet

入門必讀系列(十五)神經網路不work的原因總結

入門必讀系列(十四)CV論文常見英語單詞總結

入門必讀系列(十三)高效閱讀論文的方法

入門必讀系列(十二)池化各要點與各方法總結

TensorRT教程(三)TensorRT的安裝教程

TensorRT教程(一)初次介紹TensorRT

TensorRT教程(二)TensorRT進階介紹