一文講通OCR文字識別原理與技術全流程(科普版)
theme: condensed-night-purple
我報名參加金石計劃1期挑戰——瓜分10萬獎池,這是我的第3篇文章,點選檢視活動詳情
一、好話說在前頭,誰適合讀本文?
本文的作者在教育行業搞OCR識別工作,教育領域的OCR比較複雜,除了文字外,還有圖片、表格、公式等等。即便同樣是公式,在數學裡要斜體,在化學裡要正體,這都是行業規範。
本文的讀者是誰呢?讀者是……最終誰會讀,我不知道。但是,我定位以下人群為本文的讀者,換句話說,我就是寫給他們看的。
1.1 公司領導:節省成本,沉澱技術
很多企業領導,看到OCR屬於人工智慧範疇,很恐懼。哎呀,我們公司的員工,連正常的業務邏輯都寫不好,交付個系統一堆Bug。
現在需要使用OCR功能了,怎麼辦?買一個吧。不買難道自己做嗎?那樣,我還要建一個人工智慧團隊。
這個情況,還真得具體分析。
我瞭解到有一家公司,他們的OCR識別需求非常簡單:僅僅識別0到9,共10個數字。而且,資料來源單一,保證透明背景純色線條字跡。這種待識別的樣本,非常規範。
其實,隨便找一本影象識別的書,翻開第一章,幾乎都是在講如何識別這類數字,這個例題已經20多年了。這在程式設計師中,被稱為是Hello World級別的程式,是入門的第一課,沒有難度。
甚至谷歌公司覺得這太簡單了,以至於人工智慧受到了侮辱。於是,他們率先把入門的例子,由10個數字,改成了識別“輪船”、“汽車”、“青蛙”、“小鳥”等10類物體。
但是,這家公司依然以30萬一年的價格,購買了一個識別數字的OCR服務。
這就像是買了輛大巴車,當電動車來用,一個人開著它走街串巷,維護成本高,利用率也低。
因此,我感覺,領導不需要了解技術細節,但是需要大體瞭解它的成熟度和行業狀態。
本文會講述做OCR的流程,以及每一步需要的資源支援,以便領導們可以盤點資源,量入為出。
1.2 產品經理:瞭解過程,融會貫通
產品經理經常被開發人員懟。一方面是開發人員性格過於剛直。另外就是產品經理,有時候確實不瞭解實現過程就亂提需求:比如,App主題色要隨手機殼的顏色來變化。
但是,我也見過那種開發出身的產品經理,他不僅懂產品,也懂技術。
他經常把開發人員懟得一愣一愣的:怎麼實現不了?這邊有資料,那邊也有,做一個關聯,查詢時別不加限制,那樣太慢!
開發人員則紅著臉,遇到新需求時,先自己百度一下,做完了功課再去找這個產品經理辯論。最後,開發人員沮喪著回來,百度也不靠譜啊,原來是有實現思路的!
因此,我感覺產品經理需要了解技術的實現過程,以便在關鍵節點上,可以提出產品側的更優方案。
本文會講述實現OCR需要幾個步驟,以及每個步驟的關鍵點是什麼。我覺得產品經理有必要看。
1.3 初級小白:解疑答惑,入門行業
有人覺得OCR好神奇,怎麼做到的?我不明白,誰來給我解釋解釋。這是對此感興趣的求知者。
也有人,非常喜歡影象識別,自己想學,但是經常會被拒之門外。這是懷有滿腔熱情和憤懣的技術小白。
網路上,確實有很多大牛,博士碩士研究生,但是因為他們的水平很高,我們很難與他們對話。我曾經被鄙視:一個傅立葉變換,一句話就可以解釋清楚,你卻寫了幾千字,說了一堆廢話。
於是,我認識到“同等對話”很重要。如果我想要實現小康家庭的生活,那我去找全球商業大亨請教,可能起不到什麼效果,反而去跟樓下五金店的老闆拉拉家常,能有所收益。
現在,我弄明白了OCR識別。同時,我也想起之前的迷茫和無助。現在,或許還存在很多曾經的我,我要自己幫一下自己。
本文會講整個OCR的完整流程,以及其中的難點和解決方案(思路以及術語關鍵詞)。如果你是程式設計師的話,我在專業版裡,還有程式碼詳解。
OCR這個行業,如果無法入門,掉頭就走,一旦入門,愛不釋手。
好了,前言我說完了,也算是導讀,如果覺得本文適合你,可以繼續往下看了。
二、OCR識別的全流程(科普版)
OCR是一個簡稱,全稱叫Optical Character Recognition,中文是:光學字元識別。
它的本質是:把影象形狀轉變為文字字元。
下面說一下,我在教育行業是如何應用OCR的。
資訊化教學越來越普及,很多教學素材都要搬到資訊化平臺,比如試卷試題。那麼,紙質的試卷要電子化,就會用到OCR識別技術。
這麼一張圖,需要識別成結構化(圖片、文字、公式、表格可獨立提取出來)的資料,識別結果如下所示:
而且,識別結果還可以下載成word文件,便於老師校對並進行二次編輯:
這就是OCR的一個典型應用。
除此之外,我們常見的各種證件識別、名片識別、車牌識別等,也涉及OCR技術。
我在入門OCR的時候,做過一個小功能,我把它作為一次學習總結和畢業小考,效果如下:
上面這個例子,在github上已經完全開源。此例子基本囊括了OCR的全過程,下面我就以它作為樣板,來講一講OCR的全流程。
OCR技術的實現,總體上可以分為五步:預處理圖片、切割字元、識別字符、恢復版面、後處理文字。
中間的三步是核心,頭尾兩步最難。
2.1 預處理圖片
我們買回來水果,需要洗一下再吃。如果運氣不好的話,還需要挖掉蟲眼和糙皮才能吃。我們把吃水果前的這些步驟,叫做CSG(吃水果)的預處理。
在進行OCR之前,也需要對圖片進行預處理。因為,一般待識別的圖片千奇百怪,來源複雜:有拍照、有掃描、有截圖。
拿拍照來說,有夏至那天中午頭兒,在陽光直射下拍的;也有人在傍晚,拿著大頂轉著圈兒拍的。如果不進行預處理,OCR會很為難,就像你面對剛從糞池裡撈上來的大棗一樣為難。
2.1.1 光影的預處理
一般情況下,我們定義白色為背景,黑色為字型。
但是,如果圖片上有了光影,就會存在模糊狀態。說它是背景吧,它不是白色的。要說它是文字吧,黑乎乎地一片兒,也認不出來有什麼字元。這導致OCR經常人格分裂,這是……這不是……它是不是呢?智慧出現了問題,人工一看,我給做個預處理吧,交給你的時候保證非黑即白,你專心做事就行。OCR很感動。
2.1.2 傾斜的預處理
理想條件下的文件影象,應該是水平的,這樣方便切割方塊字。
但是,現實世界中,不管是人,還是素材,都很難擺正自己的位置。
不正,切起來就複雜了。治圖,如同治人,需要分門別類(強制昇華文章格調)。
上面這種傾斜最為常見,處理起來也最簡單。只需要幾句程式碼就能搞定,我會在以後專門介紹。基本原理就是找到文字的最小面積矩形(關鍵詞:minAreaRect
),然後旋轉這個矩形,實現角度矯正,看下面這個動態圖。
但是,這種方法有時候也不靈,比如下面這張圖。
我們現在框一個矩形,完美!
我們再把矩形擺正,完蛋!
這種傾斜,無論怎麼擺矩形都不行,因為矩形區域內的文字又有傾斜!
這時候,就需要用另一種方法,叫做霍夫線變換(關鍵詞:HoughLinesP
。有時候搜尋一個問題,都不知道該搜啥,此處我提供了關鍵詞,其解決方案可直達靈魂)。
霍夫線變換就是在圖上找直線,因為圖中的若干點,是可構成一條直線的。把這些直線畫出來,你會發現玄機,看下面的動態圖。
一段若干行的文字,每一行的字都應該是在一條直線上的。
從結果倒推過程,如果找到了一行直線,那麼是不是就找到了一個文字行。
當把這些直線擺正時,就實現了文件的矯正。看下面的動態圖。
2.1.3 扭曲的預處理
上面講的是平面的角度傾斜,此類情況在影印和掃描中較多(紙張放斜了)。
這不算嚴重,頂多就如同用涼水泡方便麵,問題不大。
其實,我們遇到更多的影象是照片。拍照,問題就多了,會存在空間的扭曲。看下面的動態圖(圖是動態的,如果不是,等一等,或者你遇到盜版的作者了,正版作者是ITF男孩)。
上面的圖,問題就比較嚴重了,就如同用煤油泡方便麵,還非得讓別人吃,這叫扭曲。
空間的扭曲,體現在視覺上就是遠大近小。
我們來矯正下面這張圖,這張圖應該是站在長城上拍的長廊,越遠越小。
肯定能矯正,就是步驟有點多。但是,換算成程式碼,也不會超過100行。下面這張動態圖裡,我把每一步對圖片處理的方法也都列上了。總共9步,每一步都可以單拉出一篇文章來講解(寫到這裡,我想出視訊教程了,給我點贊,鼓勵我)。
上面的2.1章節部分,講的都是最基礎的預處理操作。
如果你的圖片來源很複雜,尤其是包含各種場景下的拍照,或者也有從漫山遍野撿來的野生圖片、二手改裝圖片。那麼,你的預處理工作將會比較費勁,沒有難點,但是需要耗費人力物力,需要時間。
如果,你的圖片來源很簡單。就像我開頭講的,0到9數字識別還購買OCR服務的例子。他們公司是用電子採集筆在電子方格上寫數字,電子方格是統一的,筆是統一的,樣本非常標準。這種情況,不需要預處理,直接進入下一步,切割字元(媽呀,這個轉場,太絲滑了)。
2.2 切割字元
假設,通過了預處理,我們的圖片都變成像下圖這樣規範。
我忽然想到,我們是要做OCR字元識別的(你……幹啥來的)。
於是,我們需要切割字元,把每一個字……都給他(咬著牙,發狠的表情)……挖出來。
為什麼要把每個字元都切割出來?因為OCR最終是對單個字元進行識別的(識別26,其實是識別“2”和“6”)。
並且,還需要對每個字元做好標記,因為識別完了,還得還原回去。識別完了,結果是一堆單蹦的“1”、“2”、“3”、“+”、“-”字元。我們需要根據它們的相對位置,還原成“8-7=1”。所以,我們就知道了,哪個題目做對了,做錯了,從而給出批改結果。
2.2.1 投影法實現分割
上帝說要有光,就有了光。如果有姓尚的朋友,可以給孩子起名叫:尚有光。
有光以後,當光投過來時,物體的背後就有了影。有影子的地方就有實體,沒影子的地方就有空隙。
那位說了(我也不知道哪位),你扯這些幹什麼?這是三歲小孩子都懂的常識。
沒錯,三歲小孩子都知道。但是三十歲的大孩子不一定能想到,這個常識可以用來分割字元。
2.2.2 切行
假設我們拿著一根頭髮絲兒,橫著收集畫素點,從左側插入,從右側推出。把所有黑點都壓縮到一起,把黑色素……嗯,黑色素堆到最右側。就像下面的圖這樣。
此時,我們就能清楚地知道哪個區域是有文字的行,哪個區域是白紙。這個價值兩百五的操作,可以實現行的切分。
這一招就是投影大法,三歲孩子都瞭解。
2.2.3 切列
切行是橫著切,切列就得豎著切了。
一定要先切行,再切列。多數情況,行是有行距的,每一行都會有明顯的界限。但是列……如果把整個文件做投影的話,基本上就淪陷了。
上面那樣做投影,拆不出單個字元。因為一篇文件的字,就像城牆一樣,磨磚對縫,無法切分。
但是,換成對一行文字進行投影分析,就可以了。看下面這個圖,非常之清晰。
通過投影之間的間隙,我們就可以把每個字元切割開來。
2.2.4 切字
有了行與列切分的方法,相信把字元切出來,應該是不難的。其實就是很簡單,程式碼也不復雜。全都是陣列的分析。
那麼切出來的字,最終是這樣。
不是白紙黑字嗎?為什麼都變成了黑底白字呢?
其實,這是故意的。為的就是要方便OCR進行識別。我們都知道(也可能不知道),在RGB色值中,0代表黑色,255代表白色。
不管計算機的算力多麼強大,一秒鐘能運算多少億萬次,它的底層還是二進位制,也就是101010。你可以簡單地理解成它只認識數字。你看到字母A是A,計算機沒有你那麼厲害,計算機偷偷地在顯示器上輸出A這個圖案,然後心裡暗自記下這個物體是65。
因此,任何文字、圖片、音視訊,最終都要被解析成數字,這樣計算機才能幹活。
扯這些有什麼用?你在逃避什麼?黑白顛倒的問題呢?
別急,馬上。我們希望計算機識別圖片上的字,而不是背景。所以,把背景置為黑色,也就0,把字元變成白色,也就是255,這樣有利於計算機更專注於分析字元的痕跡。因為,0預設是忽略掉的。
你看,說著說著,就談到了人工智慧的機器學習。哈哈,又轉場了,真爽。
2.3 識別字符
圖片究竟是怎麼變為字元的?它還能自己學習。
計算機通過學習一些樣本之後,遇到一些從未遇到過的同類樣本,也能正確地識別出結果,這很神奇。我想了一夜也沒想明白。
第二天,我帶著孩子去公園,公園門口有一對大獅子。孩子指著獅子說,狗!我說,哦,那不是狗,那是獅子,跟狗有點像是不是。又走了一段路,公園裡又出現一個麒麟的雕塑。孩子指著它說,獅子!我說,那不是獅子。孩子說,是狗。我說也不是狗,它叫:麒麟。我感覺到,孩子的大腦在反向矯正資訊,這就是監督學習。
當我給他看狗的圖片時,我告訴她這是狗。
她根據自己的認知,找了幾個特徵,構建了一個模型:長嘴+尖牙=狗。
雖然只是看過圖片,但是出門遇到真狗,她根據這個模型也認識對了。
後來,她遇到了獅子,她修改了模型:長嘴+尖牙+鬃毛≠狗=獅子。
後來,又遇到了麒麟,這個公式變得越來越複雜……決策項越來越多。
人工智慧,就是模擬的人類的神經元,構建神經網路來嘗試尋找特徵和結果的關係。如果對了,就給這個特徵加分。如果,錯了,就給這個特徵減分。
識別數字,也是一樣。
比如在學習識別數字6的時候,它隨機認為只要有一個圈圈特徵,就是數字6。
驗證其他樣本時,發現這個隨機特徵是對的(不對就再換一個特徵再試)。於是,它建立了一個模型:只要有圈這個特徵,就是6。
後來,這個模型遇到了數字0。加入新樣本後,人工智慧發現,0也有圈,但它不是6,也有可能是0。得再找一個特徵,於是,新增一條,有勾就是6。後來,它又遇到了9。那勾在上面的就是6。後來,它又遇到了字母b……反正計算機有的是算力,能在很短的時間內完成這些學習。上面我是摟著說的,其實即便在32*32畫素的小圖片上,它隨機上幾十個特徵去做驗證,一點都不吃力。
這就是識別字符的原理。具體到程式碼,也很簡單,因為人工智慧框架目前已經非常成熟。雖然,這篇是科普版,不是專業版,不適合講程式碼,但是我還是非常想貼上一段程式碼,給大家看看。打破你的認知,人工智慧的應用層很簡單,別被忽悠了。
舉個例子,識別10類常見物體:飛機、自行車、鳥,貓,鹿、狗、青蛙、馬、輪船、汽車。
它的核心程式碼只有……6行。
所以,OCR字元的識別從來不難。難的是兩頭,比如開頭的預處理,以及下面要說的後處理。
2.4 文字後處理
識別出了字元,意義不大,有效地連線起來才能發揮作用。
一定要記住我上面說的這句話,默讀3遍以上。
其實,這句話沒啥用,只是有助於緩解緊張的氣氛!
對於類似的話,我認為是廢話,因為沒有任何指導意義,但是說的也沒錯。
2.4.1 版面還原
可能有人會覺得,我接下來講的會比較跳躍,有點作者著急去廁所的感覺。這並不是什麼寫作風格,這篇文章我快寫吐了,很想快點結束。或許我該搞一個系列專題,我比較喜歡講述體系化的東西,不喜歡一次冒一個點,那樣對別人沒有什麼深度價值。
也可能有人覺得,版面還原不難(是的,進入正題了),字元我都拆開了,座標也記錄了,把識別的字元畫上,不就還原了?!
沒錯,說的很對,把識別的結果畫上去,視覺上是還原了。
但是,這依然屬於單個字元識別的那一步,只不過做成了結果視覺化,是座標還原,並不是版面還原。
我們期望的拆分和還原應該是下面這樣:
“10+2= 4-3= 5+6=11”這些文字從資料結構上應該是一行。而且,“10+2=”從資料結構上是一個基本單位。因為,我們要對基本單位做運算和批改。這才叫還原,其實並不簡單。
有點震驚,我拆字的時候,沒有人跟我要求過這些規則。
舉個小例子,這個例子非常小,假設你識別出來了2個字,你現在有2個字元的資料:
請問,這兩個字,是不是在處於同一行?
你通過肉眼無法判定,得計算。
這就需要你用程式碼編寫演算法處理。如果你數學不好,那可能還真的是一個不小的挑戰。從圖上看,你的眼睛可能幾毫秒就識別出來了,但是計算機沒有眼睛,只有大腦。它就等著你告訴它要怎麼去算什麼資料。
其實也好處理(話都讓你說了,難也是你說的),看兩個字在Y軸的重疊情況。如果重疊達到一定佔比,那就可以認為這兩組資料是處於同一行。
其實字元與字元之間的關係還有很多情況。
根據情況的不同,我們就可以做不同的判定。
上圖所示,如果文字1的矩形區域和公式1的矩形區域,在橫向上有一定比例的重疊,那我們可以認為,它們是處於同一行。如果文字2的區域完全包含(重疊率100%)於表格1的區域中,那麼我們可以認為文字2屬於表格1。同樣,文字2和文字3在縱向的重疊率,可以作為它倆是否位於同一列的一個指標。
2.4.2 文字校正
OCR識別的最終目的,是要獲得一份準確的、結構化的文字內容。
單個字元識別,其實是各自為戰,前後不商量。
就比如,遇到一個圓圈形狀的字元圖片。OCR識別就犯了難,它是數字“0”?漢字“〇”?大寫字母“O”?小寫字母“o”?中文句號“。”?還是“Q”忘了加尾巴……。
啥都對,啥都不對。
所以,需要矯正……校正。這兩個詞,都是高頻詞,尤其拼音打字jiaozheng,容易出錯。其實,也好分辨。看語境,如果我前後提到了“文稿”,那麼是“校正”的可能性就大。如果我剛剛說了“牙齒”、“視力”、“角度”啥的,那麼基本上就應該是“矯正”了。
OCR識別的最後一步校正也是一樣。如果無法確定是數字“0”還是字母“o”,可以觀察它相鄰的幾個字元,下面一圖勝千言。
單個字元識別不對沒關係,後期智慧校正可以結合語境來幫你糾正。這個步驟就叫做後處理。
我想,OCR流程介紹的差不多了。下面該總結了。
三、總結
其實,我已經迫不及待地想睡覺了。但是,睡覺前,我還是想輸出幾個觀點。
3.1 OCR的投入:自己開發 vs 呼叫第三方?
需要企業領導視自身業務需求和研發能力來確定。
通過上面的流程講解,其實我們也瞭解到,做OCR並不難,這在業界已經非常成熟了。如果,你的業務需求很單一,另外也有一兩個喜歡研究技術的程式設計師(三年經驗起),其實可以投入幾個人、幾個月搞一搞試試看效果。就算不成功,起碼他們再跟第三方對接起來,也屬於專業級別了。
那麼,如果你的業務需求複雜多樣,是不是就要用第三方服務了。也不一定,需求太複雜,通用的第三方平臺,不一定能滿足你的個性化需求。我之前遇到過一個例子,也是在教育行業。他們有一個場景是用在填空題手寫答案上。一般的手寫識別,你就算寫的80%正確,它會給你智慧糾正,輸出字元。但是,教育行業不行,寫錯了就是寫錯了,不要糾正。比如,武術的“武”,學生如果右下角寫成了“戈”那樣多了一撇,不要輸出“武”,要輸出不是字,並記錄下學生的錯字圖片。這一下,沒有一家平臺可以對接。其實,自己研發是可以做到的。但是,研發這玩意有什麼用?只有自己用。
如果業務比較通用,且第三方費用不是很高的情況下,可以考慮購買服務。其實,不管是個人生活還是企業運轉,總歸都是要考慮成本的控制。最終都是資金限制了一切。所以,我說多少都是白扯。那種說,我有錢,但是找不到人才的老闆,請聯絡我。
3.2 OCR的重點在哪裡?
我認為是資料。
現今而言,瓶頸已經不是技術了,資料量決定識別率。短期內,技術沒有太多可提高的空間了。剩餘的就是拼資料量。
很多人覺得人工智慧不智慧,甚至智障。其實,有一部分原因就是訓練資料太少。就拿智慧問答來說,很多人問的問題,人工智慧回答不好。原因就是,你問的這些問題它從來沒有接觸過。
就像我和孩子去公園的例子,我一直給她看狗的影象,突然問她麒麟是什麼,她會從狗的答案裡去找類似的應對。
我還是拿教育行業舉例(我熟啊),如果我們拿一本魯教版七年級地理上冊,交給人工智慧學習。如果它學完了,你問它書本上的知識,它絕對是回答準確。但是,你如果問它七年級下冊的,它估計就蒙了。更何況,還有八年級、九年級呢?更何況學科還有物理、化學、生物呢?更何況,我們生活化的對話場景,不會出現在課本里呢!想讓它聰明,得多少資料,誰又有這些資料?!
OCR也是一樣。識別那一塊兒,大人寫的字和小孩寫的字,是有差別的,想要識別準確,肯定是樣本越多越準確。後處理校正那一塊兒,無他,只能是見多了才能識廣。
3.3 非得湊夠三條嗎?
有人說,你講總結,最好不要超過三條,多了記不住。
但是,如果不夠3條呢?也不用湊。
本文寫了不少。是否對大家有幫助,現在還不好說。這得看大家的反饋了。
我曾經寫過一個Android開發的專欄。
但是,大家對於Android開發其實並不看好,閱讀量少,而且大家也嘲諷現在居然還有人學Android。那我寫這個專欄,其實幫不到很多人。也就是,沒有需求。那我完全可以投入同等精力,去寫另一個受眾更廣的專欄。
對於OCR相關的題材,我有知識儲備,包括github也開源了上面的自動批改專案。至於大家是否有需求,這個是無法預測的。我也會根據文章的閱讀和互動情況,調整後續的內容輸出。
是再出一篇專業版文章,還是出一系列專題,或者是不再更新。也希望大家給我一些反饋。
本文作者掘金@ITF男孩,禁止私自轉載,侵權必究。
- 60分鐘的文心一言釋出會:我帶你5分鐘看完
- 程式設計師寫小說:我甘心當韭菜
- docx格式文件詳解:xml解析並用html還原
- 評論二則:年齡大了能否寫程式碼、上大學不喜歡IT專業咋整
- ChatGPT火了,我連夜詳解AIGC原理,並實戰生成動漫頭像
- 咱不吃虧,也不能過度自衛
- 兔年了,利用AI風格化實現剪紙兔、年畫兔、煙花兔
- 傻嗎?談男人們飯桌的拼酒現象
- 他扔出一張對話截圖:王總說的
- 老張說:快過年了,搞個AI作曲,用TensorFlow訓練midi檔案
- 為什麼大家都看中學歷?
- 年底了,裁兄弟當職員那哥們兒,如今咋樣了?
- 老張讓我用TensorFlow識別語音命令:前進、停止、左轉、右轉
- 在掘金第一次記錄失眠
- 十五分鐘簡介人工智慧,以聽懂為目的
- 認知史 12:積累階段,沒資格攀比
- 認知史 16:人過留名,雁過留聲
- 認知史 4:普遍共識
- 一文講通OCR文字識別原理與技術全流程(科普版)
- 認知史 7:選擇和努力