ECCV 2022 Oral | 理解藝術字:用於場景文字識別的角點引導Transformer

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

本文簡要介紹一篇ECCV 2022的Oral論文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 該論文 首次探索了一個新的更具挑戰性的任務:藝術文字識別,並構建了一個全部由藝術字圖像組成的WordArt數據集。 考慮到藝術字的特殊性,如字符形變大、字體複雜多樣、字符間連筆與重疊嚴重等問題,文中引入角點圖作為一種魯棒的表示來捕獲字符的結構不變性特徵,同時設計了一個字符對比損失函數來隱式地學習每一類字符的共性特徵。實驗結果表明了該方法在藝術字識別任務中的優越性,同時,在一些模糊和透視文字數據集上也達到了最佳性能。

論文鏈接:

https://arxiv.org/abs/2208.00438

代碼和數據集鏈接:

https://github.com/xdxie/WordArt

一、研究背景

藝術字是一種由設計師或藝術家精心設計的美化文字,由各種風格的字體結合文字效果,同時融合背景元素而形成的。藝術字廣泛出現在廣告、標語、雜誌、賀卡、展覽中。然而,藝術文字識別是一個被忽略的卻極具挑戰性的任務:

字符外觀隨着不同的字體、藝術設計效果和形變而產生極大的變化;

字符間存在很多複雜的連接和重疊,使得識別過程很難關注到每一個獨立的字符或筆畫;

藝術字設計往往融合了背景元素,導致識別受背景干擾嚴重。

然而,現有的場景文字識別模型很難直接勝任這項任務,規則文字識別方法無法處理各種形變和藝術效果,基於矯正的方法只能處理文本行形變而非字符形變,基於注意力的方法無法獲得藝術字符的準確位置。手寫文字識別模型所處理的場景雖然存在各種字體和連筆,但其背景十分單一且沒有藝術特效。因此,有必要設計模型以學習更加魯棒的、更具表示性的視覺特徵。

圖1:WordArt數據集中不同類型的藝術字示例

二、研究動機

鑑於上述問題,本文從三個層面建模圖像特徵。

1. 字符內部局部特徵:  為了顯式地建立字符的不變性特徵,文中引入角點來抑制外觀和形變,同時利用角點圖的離散性切斷字符間的連接和覆蓋,利用稀疏性抑制背景干擾。

圖2:角點檢測可視化,上面為藝術字圖像的角點檢測結果,下面為單個字符“M”的角點,雖然外觀不同,但結構相近

2. 字符級特徵 :  同一種字符的不同實例間巨大的視覺差異導致它們的特徵在特徵空間中分散分佈,為了隱式地學習每一類字符的共性特徵表示以提高字符識別性能,有必要讓同類字符實例在特徵空間中聚集,讓不同類的實例彼此遠離,因此本文設計了一個基於對比學習的損失函數實現這一目標。

3. 圖像級的全局特徵:  由於全局特徵對文字識別任務至關重要,模型可以從上下文視覺和語義信息中推理出當前字符,因此本文引入Transformer模型建模藝術字圖像的全局特徵。

三、方法簡述

給定一張圖像,首先利用一個角點檢測器生成一張角點圖,然後分別送入兩層卷積網絡得到初級特徵。一方面,圖像的特徵將通過多頭自注意力機制進一步建模全局特徵,另一方面,角點圖的特徵將通過多頭交叉注意力機制與圖像全局特徵融合。編碼器的輸出和字符序列Embedding輸入Transformer解碼器獲得特徵序列,最終應用兩個線性層分別計算兩個損失。

圖3:CornerTransformer的整體結構,由一個角點引導的編碼器和一個Transformer解碼器組成,由兩種不同模態的表示作為輸入。CE Loss是交叉熵損失,CC Loss是提出的字符對比損失函數。

1.角點引導的編碼器

通常,對於一個特定字符,無論其外觀發生怎幺的變化,該字符的最關鍵的角點總是可以被檢測到,而且角點之間形成的結構關係也總是相近的。這些點是圖像中包含視覺信息最豐富的的位置。因此,本文利用角點圖作為輔助輸入提供一個不變性視覺特徵。

具體地,對於輸入圖像,模型使用一個經典的角點檢測器,Shi-Tomasi檢測器生成角點圖,該檢測器改進了Harris Detector,可以提供更高質量更穩定的角點結果。角點圖是一個和圖像大小一致,單通道的稀疏矩陣,由大量0和少量1構成,其中值為1的位置表示該位置為角點。獲得角點圖後,考慮到角點間存在聯繫,首先使用卷積層建模角點之間的局部相關性,隨後將角點和圖像特徵進行融合。文中採用了一種基於角點查詢的交叉注意力機制,將圖像特徵作為Key和Value,將角點特徵作為Query:

該方式可以讓角點自動尋找它所感興趣的圖像特徵點,讓模型將更多的注意力集中於字符的位置。例如,對一個文本圖像中的字符“A”,它的頂點的尖端位置更傾向於關注該字符的其他位置,而不是圖像中的其他字符。

圖4表明,引入該機制後,編碼器可以準確地關注到每個字符的位置,儘管存在形變、連筆、彎曲等挑戰,更重要的是,有時還可以關注到更加細粒度的特徵比如字符筆畫信息,儘管並沒有提供任何字符級或筆畫級的標註。

圖4:編碼器輸出特徵圖可視化。第一行:輸入圖像;第二行:Baseline特徵圖;第三行:基於Baseline引入角點查詢交叉注意力機制特徵圖

2.字符對比損失

藝術文字中同類字符的不同實例差異巨大,有必要在訓練過程中為每一類字符學習一種統一的表示。受對比學習思想的啟發,本文提出了一個字符對比損失(CC Loss),簡言之,對於一個Minibatch中的一個字符,它的正樣本為該Minibatch中與它同類別其他字符,負樣本為其他不同類別的字符:

則模型完整的優化目標為:

圖5表明,字符對比損失可以在特徵空間中將每一類聚在一起,將不同類分離。

圖5:編碼器輸出的字符特徵分佈

四、WordArt數據集

為了評估不同方法的藝術字識別性能,本文構建了一個藝術字識別數據集,包含6316張藝術字圖像,其中訓練集4804張,測試集1511張。圖像來自海報、賀卡、封面、手寫字等各種場景。

圖6:WordArt數據集統計信息,(a) 包含不同文本長度的圖片數量 (b) 數據集中全部字符的頻率分佈

五、實驗結果

1.消融實驗

為了驗證模型中每一部分設計的有效性,文中實施了四組實驗,分別驗證角點圖的有效性、不同角點檢測器對性能的影響、不同融合策略的影響以及字符對比損失中超參數的影響。實驗結果表明,在去掉角點分支且維持參數量不變的情況下、以及把角點分支的輸入換成其他輸入時,都會造成性能損失;使用不同的角點檢測器會對結果造成輕微差異,但都好於不使用角點的情況,而且模型對角點檢測的質量具有一定的魯棒性;傳統常用的融合方式並不能充分發揮角點的作用,而角點查詢機制可以顯着改善模型性能;字符對比損失可以顯着改善識別性能,但不同的超參數對該損失函數的影響較大,文中選取了一組近似最優的參數設置。

2.藝術字識別結果

文中對比了CornerTransformer與若干代表性的文字識別方法,得益於基於角點的設計和提出的損失函數,該方法實現了最佳的識別準確率。由圖7可以看出,一些困難的樣例也可以被成功識別,如包含複雜字體、連筆、極度彎曲和形變的藝術字。

圖7:WordArt數據集上的定性識別結果。每一張圖下面依次是ABINet-LV的結果,本文使用的Baseline結果,CornerTransformer的結果

3.場景文字識別結果

為了進一步驗證CornerTransformer的泛化性,本文在6個常用場景文字識別數據集上對比了十幾種方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上達到了SOTA的性能,這些數據集的共性是模糊、噪聲嚴重、圖像質量差,但是,基於梯度的角點檢測對這些因素的干擾是魯棒的。

六、總結

本文致力於藝術字識別這個新的挑戰性任務,並提供了一個WordArt數據集。為了解決該任務面臨的難點,作者 引入了角點圖作為一種魯棒的表示,並設計了角點查詢交叉注意力機制來讓模型實現更準確的字符注意力 。 文章還提出了一個字符對比損失函數,來學習字符的不變性特徵。 實驗結果表明了本文方法在藝術字和不規則、低質量場景文字識別中的優越性。  作者希望WordArt數據集能夠激勵更先進的文字識別模型的出現,基於角點的設計可以為其他有挑戰的識別任務提供靈感。

相關文獻

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.

[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.

[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.

[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.

[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.

[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

公眾號:【CSIG文檔圖像分析與識別專委會】

作者:謝旭東

Illustration  b y Pixel True   from Icon Scout