精細到髮絲級別的摳圖演算法,工程師的浪漫YYDS!
你以為這些人像髮絲的勾勒是PS做的嗎?
不!這是AI演算法的效果!
\ 這是什麼AI技術能把髮絲精細的識別,甚至還能有透明度漸變?經過小編的一番調研,這項技術叫做Matting,是指通過計算前景的顏色和透明度,將前景從影像中擷取出來,並生成一張Alpha圖的技術。
該資料引用公開資料集[1]\ 近期PaddleSeg團隊復現了經典Matting演算法MODNet,並進行了一定改進,提供了更豐富的backbone模型選擇,適用邊緣端、服務端等多種任務場景。
\ 在這裡小編趕緊給大家貼上專案連結地址。歡迎小夥伴們star收藏:https://github.com/PaddlePaddle/PaddleSeg/tree/release/2.3/contrib/Matting\ 同時PaddleSeg團隊提供了可部署在手機端的APP應用,歡迎大家掃碼體驗Matting的人像摳圖效果。\ APP下載連結:https://paddleseg.bj.bcebos.com/matting/models/deploy/app-debug.apk\ Matting精細化摳圖被廣泛應用在多種行業,如影片剪輯,影片合成等領域。
看到這麼好的技術,有的小夥伴們會比較關注技術上是怎麼實現的,那麼我們就一起來看看Matting的技術演化過程。
*Matting演算法基本結構*
基於深度學習的Matting分為兩大類:
1.一種是基於輔助資訊輸入。即除了原圖和標註影象外,還需要輸入其他的資訊輔助預測。最常見的輔助資訊是Trimap,即將圖片劃分為前景,背景及過度區域三部分。另外也有以背景或互動點作為輔助資訊。
2. 一種是不依賴任何輔助資訊,直接實現Alpha預測。
\ 本文將分別對兩類Matting演算法展開介紹,和小夥伴們一起梳理Matting的發展歷程。
*DIM -Matting*
DIM(Deep Image Matting)第一次闡述了在給定影象和輔助資訊Trimap的情況下,可以通過端到端的方式學習到Alpha。其網路分為兩個階段,第一階段是深度卷積編碼-解碼網路, 第二階段是一個小型卷積神經網路,用來減少編碼-解碼網路引起的細節損失,提升Alpha預測的準確性和邊緣效果。在DIM之後誕生了大量的基於Trimap的Matting網路。
圖片來源:Xu, Ning, et al. "Deep image matting." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
*BGMV2:*
*以背景作為輔助資訊*
BGMv2(Background Matting v2) 改變思路,利用背景影象取代Trimap來輔助網路進行預測,有效避免了Trimap獲取費時費力的問題,並將網路分為Base網路和Refiner兩部分。在計算量大的Base網路階段對低解析度進行初步預測,在Refiner階段利用Error Map對高解析度影象相應的切片進行Refine。通過此實現了高解析度影象的實時預測。
圖片來源:Lin, Shanchuan, et al. "Real-time high-resolution background matting." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
*MODNet*
\ \ 輔助資訊的獲取極大限制了Matting的應用,為了提升Matting的應用性,針對Portrait Matting領域MODNet摒棄了輔助資訊,直接實現Alpha預測,實現了實時Matting,極大提升了基於深度學習Matting的應用價值。MODNet將Matting分解成三個子目標進行優化,通過任務分解提升Alpha預測的準確率。
圖片來源:Ke Z, Li K, Zhou Y, et al. Is a Green Screen Really Necessary for Real-Time Portrait Matting?[J]. arXiv preprint arXiv:2011.11961, 2020.
\ 當前PaddleSeg提供的Matting演算法便是對MODNet演算法的復現,並在原著基礎上提供了多個不同主幹網路的預訓練模型如RestNet50_vd、HRNet_w18 來滿足使用者在邊緣端、服務端等不同場景部署的需求。
圖片資料引用說明:
[1]Christoph Rhemann, Carsten Rother, Jue Wang, Margrit Gelautz, Pushmeet Kohli, Pamela Rott. A Perceptually Motivated Online Benchmark for Image Matting.