ECCV 2022 Oral | 理解藝術字:用於場景文字識別的角點引導Transformer

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

本文簡要介紹一篇ECCV 2022的Oral論文:Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition. 該論文 首次探索了一個新的更具挑戰性的任務:藝術文字識別,並構建了一個全部由藝術字影象組成的WordArt資料集。 考慮到藝術字的特殊性,如字元形變大、字型複雜多樣、字元間連筆與重疊嚴重等問題,文中引入角點圖作為一種魯棒的表示來捕獲字元的結構不變性特徵,同時設計了一個字元對比損失函式來隱式地學習每一類字元的共性特徵。實驗結果表明了該方法在藝術字識別任務中的優越性,同時,在一些模糊和透視文字資料集上也達到了最佳效能。

論文連結:

http://arxiv.org/abs/2208.00438

程式碼和資料集連結:

http://github.com/xdxie/WordArt

一、研究背景

藝術字是一種由設計師或藝術家精心設計的美化文字,由各種風格的字型結合文字效果,同時融合背景元素而形成的。藝術字廣泛出現在廣告、標語、雜誌、賀卡、展覽中。然而,藝術文字識別是一個被忽略的卻極具挑戰性的任務:

字元外觀隨著不同的字型、藝術設計效果和形變而產生極大的變化;

字元間存在很多複雜的連線和重疊,使得識別過程很難關注到每一個獨立的字元或筆畫;

藝術字設計往往融合了背景元素,導致識別受背景干擾嚴重。

然而,現有的場景文字識別模型很難直接勝任這項任務,規則文字識別方法無法處理各種形變和藝術效果,基於矯正的方法只能處理文字行形變而非字元形變,基於注意力的方法無法獲得藝術字符的準確位置。手寫文字識別模型所處理的場景雖然存在各種字型和連筆,但其背景十分單一且沒有藝術特效。因此,有必要設計模型以學習更加魯棒的、更具表示性的視覺特徵。

圖1:WordArt資料集中不同型別的藝術字示例

二、研究動機

鑑於上述問題,本文從三個層面建模影象特徵。

1. 字元內部區域性特徵:  為了顯式地建立字元的不變性特徵,文中引入角點來抑制外觀和形變,同時利用角點圖的離散性切斷字元間的連線和覆蓋,利用稀疏性抑制背景干擾。

圖2:角點檢測視覺化,上面為藝術字影象的角點檢測結果,下面為單個字元“M”的角點,雖然外觀不同,但結構相近

2. 字元級特徵 :  同一種字元的不同例項間巨大的視覺差異導致它們的特徵在特徵空間中分散分佈,為了隱式地學習每一類字元的共性特徵表示以提高字元識別效能,有必要讓同類字元例項在特徵空間中聚集,讓不同類的例項彼此遠離,因此本文設計了一個基於對比學習的損失函式實現這一目標。

3. 影象級的全域性特徵:  由於全域性特徵對文字識別任務至關重要,模型可以從上下文視覺和語義資訊中推理出當前字元,因此本文引入Transformer模型建模藝術字影象的全域性特徵。

三、方法簡述

給定一張影象,首先利用一個角點檢測器生成一張角點圖,然後分別送入兩層卷積網路得到初級特徵。一方面,影象的特徵將通過多頭自注意力機制進一步建模全域性特徵,另一方面,角點圖的特徵將通過多頭交叉注意力機制與影象全域性特徵融合。編碼器的輸出和字元序列Embedding輸入Transformer解碼器獲得特徵序列,最終應用兩個線性層分別計算兩個損失。

圖3:CornerTransformer的整體結構,由一個角點引導的編碼器和一個Transformer解碼器組成,由兩種不同模態的表示作為輸入。CE Loss是交叉熵損失,CC Loss是提出的字元對比損失函式。

1.角點引導的編碼器

通常,對於一個特定字元,無論其外觀發生怎么的變化,該字元的最關鍵的角點總是可以被檢測到,而且角點之間形成的結構關係也總是相近的。這些點是影象中包含視覺資訊最豐富的的位置。因此,本文利用角點圖作為輔助輸入提供一個不變性視覺特徵。

具體地,對於輸入影象,模型使用一個經典的角點檢測器,Shi-Tomasi檢測器生成角點圖,該檢測器改進了Harris Detector,可以提供更高質量更穩定的角點結果。角點圖是一個和影象大小一致,單通道的稀疏矩陣,由大量0和少量1構成,其中值為1的位置表示該位置為角點。獲得角點圖後,考慮到角點間存在聯絡,首先使用卷積層建模角點之間的區域性相關性,隨後將角點和影象特徵進行融合。文中採用了一種基於角點查詢的交叉注意力機制,將影象特徵作為Key和Value,將角點特徵作為Query:

該方式可以讓角點自動尋找它所感興趣的影象特徵點,讓模型將更多的注意力集中於字元的位置。例如,對一個文字影象中的字元“A”,它的頂點的尖端位置更傾向於關注該字元的其他位置,而不是影象中的其他字元。

圖4表明,引入該機制後,編碼器可以準確地關注到每個字元的位置,儘管存在形變、連筆、彎曲等挑戰,更重要的是,有時還可以關注到更加細粒度的特徵比如字元筆畫資訊,儘管並沒有提供任何字元級或筆畫級的標註。

圖4:編碼器輸出特徵圖視覺化。第一行:輸入影象;第二行:Baseline特徵圖;第三行:基於Baseline引入角點查詢交叉注意力機制特徵圖

2.字元對比損失

藝術文字中同類字元的不同例項差異巨大,有必要在訓練過程中為每一類字元學習一種統一的表示。受對比學習思想的啟發,本文提出了一個字元對比損失(CC Loss),簡言之,對於一個Minibatch中的一個字元,它的正樣本為該Minibatch中與它同類別其他字元,負樣本為其他不同類別的字元:

則模型完整的優化目標為:

圖5表明,字元對比損失可以在特徵空間中將每一類聚在一起,將不同類分離。

圖5:編碼器輸出的字元特徵分佈

四、WordArt資料集

為了評估不同方法的藝術字識別效能,本文構建了一個藝術字識別資料集,包含6316張藝術字影象,其中訓練集4804張,測試集1511張。影象來自海報、賀卡、封面、手寫字等各種場景。

圖6:WordArt資料集統計資訊,(a) 包含不同文字長度的圖片數量 (b) 資料集中全部字元的頻率分佈

五、實驗結果

1.消融實驗

為了驗證模型中每一部分設計的有效性,文中實施了四組實驗,分別驗證角點圖的有效性、不同角點檢測器對效能的影響、不同融合策略的影響以及字元對比損失中超引數的影響。實驗結果表明,在去掉角點分支且維持引數量不變的情況下、以及把角點分支的輸入換成其他輸入時,都會造成效能損失;使用不同的角點檢測器會對結果造成輕微差異,但都好於不使用角點的情況,而且模型對角點檢測的質量具有一定的魯棒性;傳統常用的融合方式並不能充分發揮角點的作用,而角點查詢機制可以顯著改善模型效能;字元對比損失可以顯著改善識別效能,但不同的超引數對該損失函式的影響較大,文中選取了一組近似最優的引數設定。

2.藝術字識別結果

文中對比了CornerTransformer與若干代表性的文字識別方法,得益於基於角點的設計和提出的損失函式,該方法實現了最佳的識別準確率。由圖7可以看出,一些困難的樣例也可以被成功識別,如包含複雜字型、連筆、極度彎曲和形變的藝術字。

圖7:WordArt資料集上的定性識別結果。每一張圖下面依次是ABINet-LV的結果,本文使用的Baseline結果,CornerTransformer的結果

3.場景文字識別結果

為了進一步驗證CornerTransformer的泛化性,本文在6個常用場景文字識別資料集上對比了十幾種方法。值得一提的是,所提出的方法在SVT、SVTP、IC15上達到了SOTA的效能,這些資料集的共性是模糊、噪聲嚴重、影象質量差,但是,基於梯度的角點檢測對這些因素的干擾是魯棒的。

六、總結

本文致力於藝術字識別這個新的挑戰性任務,並提供了一個WordArt資料集。為了解決該任務面臨的難點,作者 引入了角點圖作為一種魯棒的表示,並設計了角點查詢交叉注意力機制來讓模型實現更準確的字元注意力 。 文章還提出了一個字元對比損失函式,來學習字元的不變性特徵。 實驗結果表明了本文方法在藝術字和不規則、低質量場景文字識別中的優越性。  作者希望WordArt資料集能夠激勵更先進的文字識別模型的出現,基於角點的設計可以為其他有挑戰的識別任務提供靈感。

相關文獻

[1]Lee J, Park S, Baek J, et al. On recognizing texts of arbitrary shapes with 2D self-attention[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 546-547.

[2]Xu X, Zhang Z, Wang Z, et al. Rethinking text segmentation: A novel dataset and a text-specific refinement approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 12045-12055.

[3]Khosla P, Teterwak P, Wang C, et al. Supervised contrastive learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18661-18673.

[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[5]Shi J, Tomasi C. Good features to track[C]//1994 Proceedings of IEEE conference on computer vision and pattern recognition. IEEE, 1994: 593-600.

[6]Fang S, Xie H, Wang Y, et al. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7098-7107.

[7]Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.

[8]Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.

公眾號:【CSIG文件影象分析與識別專委會】

作者:謝旭東

Illustration  b y Pixel True   from Icon Scout