文件智慧多模態預訓練模型LayoutLMv3:兼具通用性與優越性

語言: CN / TW / HK

(本文閱讀時間:14分鐘)

編者按: 企業數字化轉型中,以文件、影象等多模態形式為載體的結構化分析和內容提取是其中的關鍵一環,快速、自動、精準地處理包括合同、票據、報告等資訊,對提升現代企業生產效率至關重要。因此,文件智慧技術應運而生。過去幾年,微軟亞洲研究院推出了通用文件理解預訓練 LayoutLM 系列研究成果,並不斷優化模型對文件中文字、佈局和視覺資訊的預訓練效能。近期發表的最新的 LayoutLM 3.0 版本,在以文字和影象為中心的任務上有了更加出色的表現,讓文件理解模型向跨模態對齊邁出一大步!

隨著各行各業的數字化轉型,涵蓋表單、票據、郵件、合同、報告、論文等的電子文件數量持續增長。電子文件包含大量與行業相關的影象和文字資訊,人工處理這些大量的資訊耗時長、成本大。電子文件的自動識別、理解和分析技術對提高個人或企業的生產力十分重要,因此文件智慧技術應運而生。文件智慧利用計算機自動識別、理解及分析電子文件,大大提升了個人和企業處理電子文件的生產力,是自然語言處理和計算機視覺交叉領域的一個重要研究方向。

圖1:文件智慧任務示例:表單理解、文件佈局分析

雖然為特定任務設計的深度學習方法針對某一項文件理解任務能取得較好的效能,但這些方法通常依賴於有限的標註資料,而對於文件理解任務尤其是其中的資訊抽取任務來說,獲取詳細的標註資料昂貴且耗時。為此 ,微軟亞洲研究院的研究人員將目光轉向了那些被忽視的無標註資料上,通過自監督預訓練技術來利用現實生活中大量的無標註資料。 由於近年來預訓練在深度學習領域被廣泛應 用,所以該技術在文件智慧領域也取得了顯著進展。經過預訓練的文件智慧模型可以解析並提取文件的各類資訊,這對文件智慧的學術研究和生產應用都有重要意義。

LayoutLMv3 :距離文件理解跨模態對齊又進一步

現實生活中的文件不僅有大量的文字資訊,同時也包含豐富的佈局和視覺資訊 ,並且這三種模態在文件中有天然的對齊特性。如何對這些文件進行建模並且通過訓練達到跨模態對齊是一個重要的研究課題。 對此,微軟亞洲研究院在文件智慧領域進行了諸多探索,推出了通用文件理解預訓練  LayoutLM 系列研究成果。這些成果不僅在學術界受到了廣泛關注和認可,在工業界也得到了廣泛應用,如微軟 Azure 認知服務中的表單識別器(Form Recognizer)等。

  • LayoutLM ——通過將文字和佈局進行聯合預訓練,在多種文件理解任務上取得了顯著提升。

  • LayoutLMv2 ——通過將視覺特徵資訊融入到預訓練過程中,大大提高了模型的影象理解能力。

  • LayoutXLM ——基於 LayoutLMv2 的模型結構,通過使用53種語言進行預訓練,拓展了 LayoutLM 的多語言支援。

如今,微軟亞洲研究院又提出了新一代的 文件理解預訓練模型 LayoutLMv3 通過簡單的模型架構和統一的預訓練目標,大大簡化了模型設計,增強了下游任務的易用性。 研究員們分別在 5000萬張中文和 1100 萬張英文文件影象上預 訓練了 LayoutLMv3 模型,以滿足廣大中英文使用者的需求。 LayoutLMv3 在以文字為中心的任務中(如表單理解、小票理解和文件視覺問答)和在以影象為中心的任務中(如文件影象分類和文件佈局分析)均有出色表現。

相關論文被計算機多媒體領域頂會 ACM Multimedia 2022 接收為 Oral Presentation(口頭報告論文), 程式碼及模型均已開源。(論文及程式碼連結,請見文末)

LayoutLMv3 以統一的文字和影象掩碼建模目標 來預訓練多模態模型

自監督學習利用大量無標註資料,在表徵學習中取得了快速進展。在自然語言處理研究中,BERT 首先提出了“掩碼語言建模”(Masked Language Modeling, MLM)的自監督預訓練方法,通過隨機遮蓋文字中一定比例的單詞,並根據上下文重建被遮蓋的單詞來學習具有上下文語義的表徵。雖然大多數用於文件智慧的多模態預訓練模型在語言模態上使用了 MLM,但它們在影象模態的預訓練目標有所不同。例如,有的模型目標是重建密集的影象畫素或是重建連續的區域性區域特徵,這些方法傾向於學習嘈雜的細節,而不是高層結構(如文件佈局)。並且,影象和文字目標的粒度不同進一步增加了跨模態對齊學習的難度,而跨模態對齊學習對多模態表示學習非常關鍵。

為了克服文字和影象在預訓練目標上的差異,促進多模態表徵學習, 微軟亞洲研究院的 研究員們 提出了 LayoutLMv3,以統一的文字和影象 掩碼建模 目標來預訓練多模態 模型 ,即 LayoutLMv3 學習重建語言模態的 遮蓋 詞 ID,並對稱地重建影象模態的 遮蓋影象塊  ID

圖2:關於影象表示方式和預訓練目標的比較

此外, 對於文件來說,每個文字詞都對應著一個影象塊。為了學習這種跨模態的對齊關係, 研究員們還提出了一個詞塊對齊預訓練目標,通過預測一個文字詞的對應影象塊是否被遮蓋,來學習這種語言——影象細粒度對齊關係。

LayoutLMv3 模型架構: 直接利用文件影象的圖 像塊, 節省引數並避免區域標註

在模型架構設計上,LayoutLMv3 不依賴複雜的 CNN 或 Faster R-CNN 網路來表徵影象,而是 直接利用文件影象的影象塊,從而 大大節省了引數並 避免了複雜的文件預處理(如人工標註目標區域框和文件目標檢測) 簡單的統一架構和訓練目標使  LayoutLMv3  成為通用的預訓練模型,可適用於以文字為中心和以影象為中心的文件  AI  任務。

圖3:LayoutLMv3 的架構和預訓練目標

微軟亞洲研究院在五個資料集中評估了預訓練的 LayoutLMv3 模型,包括以文字為中心的資料集:表單理解 FUNSD 資料集,票據理解 CORD 資料集,文件視覺問答 DocVQA 資料集;以及以影象為中心的資料集:文件影象分類 RVL-CDIP 資料集,文件佈局分析 PubLayNet 資料集。實驗結果表明,LayoutLMv3 在這些資料集上以更少的引數達到了更優的效能。

LayoutLMv3 還應用了文字——影象多模態 Transformer 架構來學習跨模態表徵。文字向量由詞向量、詞的一維位置向量和二維位置向量相加得到。文件影象的文字和其相應的二維位置資訊(佈局資訊)則利用光學字元識別(OCR 工具抽取。因為文字的鄰接詞通常表達了相似的語義,LayoutLMv3 共享了鄰接詞的二維位置向量,而 LayoutLM 和 LayoutLMv2 的每個詞則用了不同的二維位置向量。

影象向量的表示通常依賴於 CNN 抽取特徵圖網格特徵或 Faster R-CNN 提取區域特徵,這些方式增加了計算開銷或依賴於區域標註。因此,研究員們將影象塊經過線性對映獲得影象特徵,這種影象表示方式最早在 ViT 中被提出,計算開銷極小且不依賴於區域標註,有效解決了以上問題。具體來說,首先將影象縮放為統一的大小(例如224x224),然後將影象切分成固定大小的塊(例如16x16),並通過線性對映獲得影象特徵序列,再加上可學習的一維位置向量後得到影象向量。

LayoutLMv3 通過三個預訓練目標 以自監督的方式學習多模態表示

  1. 掩碼語言建模(Masked Language Modeling, MLM 。為了利於模型學習佈局資訊與文字和影象之間的對應關係,該任務隨機遮蓋30%的文字詞向量,但保留對應的二維位置(佈局)資訊。類似 BERT 和 LayoutLM,模型目標是根據未被遮蓋的圖文和佈局資訊還原文字中被遮蓋的詞。

  2. 掩碼影象建模(Masked Image Modeling, MIM 。為了鼓勵模型從文字和影象的上下文資訊推測影象資訊,該任務隨機遮蓋了約40%的影象塊。類似 BEiT,模型目標是根據未被遮蓋的文字和影象的資訊還原被遮蓋的影象塊經過離散化的 ID。

  3. 詞塊對齊(Word-Patch Alignment, WPA 。對於文件來說,每個文字詞都對應著一個影象塊。由於前兩個任務隨機遮蓋了部分文字詞和影象塊,模型無法顯式地學習這種文字詞和影象塊之間的細粒度對齊關係。該目標通過顯式地預測一個文字詞的對應影象塊是否被掩蓋來學習語言和視覺模態之間的細粒度對齊關係。

實驗及結果

為了學習各種文件任務的通用表示,LayoutLMv3 的預訓練資料集是 IIT-CDIP,包含大約1100萬張掃描文件影象。 微軟亞洲研究院訓練了 BASE、LARGE 兩種規模的模型,引數量分別是133M、368M。

1.   微調多模態任務:遠超 SOTA

研究員們在四個多模態任務上對 LayoutLMv3 進行了微調:

(1)表單理解任務對錶單的文字內容進行序列標註。FUNSD 是一個文件掃描表單理解資料集,包含199個文件,有9,707個語義實體的標註。FUNSD 資料集的語義實體標籤任務旨在為每個語義實體分類為“問題”、“答案”、“標題”或“其他”中的一個。

(2)票據理解任務需要提取票據資訊,對每個詞進行語義標籤分類。該任務的資料集是 CORD,它包含1,000張收據,在4個類別下定義了30個語義標籤。

(3)文件影象分類任務的目的是預測文件影象的類別。該任務在 RVL-CDIP 資料集上進行。RVL-CDIP 資料集包含400,000張文件影象,標有16個類別。

(4)文件視覺問答任務需要模型將文件影象和問題作為輸入,並輸出一個答案。該任務在DocVQA資料集上進行。DocVQA 的訓練集包含約一萬張圖片和四萬個問題。

在這些任務上,LayoutLMv3 取得了比以前的工作更好或相當的結果。例如,對於LARGE模型規模,LayoutLMv3 在 FUNSD 資料集上取得了92.08的 F1 分數,大大超過了此前 LARGE 規模的 SOTA 結果(85.14)。

表1:LayoutLMv3 和已有工作在 CORD、FUNSD、RVL-CDIP、DocVQA 資料集上的實驗結果對比

2.    微調視覺任務: 所有指標優於其他模型

為了證明多模態預訓練模型 LayoutLMv3 在視覺領域應用的通用性,研究員們將 LayoutLMv3 應用於了文件佈局分析任務。文件佈局分析任務旨在為文件的不同佈局元素檢測二維位置和類別。這項任務有助於將文件解析成機器可讀的格式,供下游應用程式使用。研究員們將這項任務建模為目標檢測問題,以 LayoutLMv3 為特徵提取網路,將不同層提取的特徵整合到目標檢測器中。研究員們在 PubLayNet 資料集上進行了實驗。該資料集包含三十多萬張研究論文影象,每張影象都有佈局邊界框的位置和類別標註,類別涵蓋文字、標題、列表、圖和表。與卷積神經網路模型和同期的視覺 Transformer 預訓練模型相比,LayoutLMv3 在所有指標上都優於其他模型。

表2:LayoutLMv3 和已有工作在 PubLayNet 資料集關於文件佈局分析任務的實驗結果對比

3.    消融實 驗:有力證明了 LayoutLMv3 適合以影象為中心的文件分析任務

為了研究 LayoutLMv3 的影象表示方法和預訓練目標的效果,研究員們在四個典型的資料集上進行了消融實驗。基礎模型只使用文字和佈局資訊,用 MLM 目標進行預訓練。接著,研究員們依次為基礎模型增加影象表示,MIM 和 WPA 預訓練目標。

通過表格中的結果,可觀察到,基礎模型沒有影象表示,不能進行以影象為中心的文件分析任務。LayoutLMv3 採用影象塊的線性對映作為影象表示,設計簡單,只引入了0.6M的引數。這種影象表示通過與 MIM 預訓練目標結合,不僅能支援以影象為中心的任務,還能提升以文字為中心的任務的表現。結合 WPA 預訓練目標又進一步提升了所有下游任務的效能,證實了 WPA 在跨模態表示學習和影象表示學習中的有效性,強調了視覺和語言跨模態對齊學習的重要性。此外,研究員們還發現 MIM 可以幫助規範化訓練,對於 PubLayNet 上的文件佈局分析等視覺任務的模型收斂至關重要。

表3:關於影象表徵和預訓練目標的消融實驗結果對比

LayoutLMv3 用於中文文件理解也有出色表現

以上描述的 LayoutLMv3 模型的預訓練資料均為英語,可在英語的下游任務資料集上微調。為了 滿足廣大中文使用者的需求,研究員們還訓練了中文的 LayoutLMv3 模型,可用於中文任務。

研究員們通過大規模資料抓取獲得了海量的數字文件,並用自動化語言檢測工具篩選出了5000萬張中文文件影象用於預訓練。研究員們在一箇中文視覺資訊抽取任務上驗證了模型的效果。由表4可見,LayoutLMv3 在所有類別平均分數上取得了99.21的高分,顯著超過了其他模型,驗證了 LayoutLMv3 中文模型的有效性。

表4:LayoutLMv3 和已有工作在 EPHOIE 中文資料集關於視覺資訊抽取任務的實驗結果對比

大量的實驗結果都證明了 LayoutLMv3 的通用性和優越性,它不僅適用於以文字為中心和以影象為中心的文件智慧任務,還可以以更少的引數獲得更好或相當的效能。未來,微軟亞洲研究院將探索擴大預訓練模型的規模,使模型能夠利用更多的訓練資料來進一步推動結果;同時擴充套件模型的少樣本學習能力,從而促進模型在文件智慧行業中更多業務場景下的應用。

LayoutLMv3 論文連結:

https://arxiv.org/pdf/2204.08387.pdf

LayoutLMv3 程式碼連結:

https://aka.ms/layoutlmv3

你也許還想看