CNN 視覺化:從 CVPR22 的出發,聊聊CAM是如何啟用我們文章的熱度
↑ 點選 藍字 關注極市平臺
作者丨 matrix明仔
編輯丨極市平臺
極市導讀
本文從 CVPR2022中三篇不同領域的文章中CAM的表現出發,淺談一下對未來的CAM發展或者是未來可解釋深度模型的發展。 >> 加入極市CV技術交流群,走在計算機視覺的最前沿
卷首語
CAM的文章以及程式碼連結如下:

程式碼連結: https://github.com/jacobgil/pytorch-grad-cam
文章連結: https://arxiv.org/pdf/1610.02391v1.pdf
這個問題起源於我的對於現階段 CAM解釋網路特徵變化的未來發展的 一些不確定。我自己在20年開始寫文章就沉迷上使用了 CAM去解釋自己的新增的網路結構模組了。 我對於 CAM的接觸時間還蠻長的 ,從開始的熱戀期到現在的倦怠期,我越來越不覺得 CAM 的圖能給我帶來眼前一亮的感覺了。加上現在一些文章的濫用,在一堆圖片中選擇出效果最好的幾張進行所謂的CAM的解釋,這樣的工作會逐漸讓我覺得這個東西的無用和雞肋。
所以今晚就想和大家聊聊,在 CVPR2022 中三篇不同領域的文章中 CAM 的表現, 對未來的CAM發展或者是未來可解釋深度模型的發展 希望得到一些啟發!
先簡單快速的回顧一遍CAM

首先CAM是什麼?
CAM全稱 Class Activation Mapping ,既類別啟用對映圖,也被稱為類熱力圖、顯著性圖等。我們可以簡單的理解為是影象中資訊對於預測結果的貢獻排名,分數越高 (顏色越熱) 的地方表示在輸入圖片中這塊區域對網路的響應越高、貢獻越大,也就是 吸引網路注意力 的地方!
如何生成CAM
CNN的操作可以看做是濾波器對圖片進行特徵提取,我們可以大膽直接的得出結論, 被一層層卷積核提取後,基本就是卷積核判斷是重要的資訊,其值越大,特徵越明顯,得到卷積的關注度就越高。
一個深層的卷積神經網路,通過層層卷積操作,提取出語義資訊和空間資訊,我們一直都很希望可以打破深度神經網路的黑盒,可以溯源特徵提取的過程,甚至可以知道 特徵 所代表的 語義內容, 通常每一層的特徵圖還會有很多的層,我們一般用channel表示,這些不同層(通道)特徵圖,我們可以認為理解為存放著卷積提取到不同的特徵。隨著卷積的逐層深入,該特徵已經失去了原有的空間資訊和特徵資訊,被進一步的整合壓縮為具有高度抽象性的特徵圖。這些特徵圖所代表的語義資訊我們不得而知,但是這些特徵圖的重要性我們卻可以通過計算得出。所以我們的CAM主要作用就是根據不同通道的貢獻情況, 融合出一張CAM圖 ,那麼我們就可以更直觀的瞭解到在影象中那些部分是在 CNN中是高響應 的重要資訊,哪些資訊是無關緊要的無聊資訊。
CAM獲取的步驟如下:
step1:選擇視覺化的特徵層,例如尺寸為 16∗16∗1024 的特徵圖
step2:獲取該特徵的每個channel的權重,即長度為1024的向量;
step3:通過線性融合的方式,把不同channel的權重賦回原特徵圖中,在依次的將各個通道的特徵圖線性相加
獲取尺寸為16*16的新特徵圖;
step4:對該新特徵圖進行歸一化,並通過插值的方式還原到原圖尺寸;
Partial Class Activation Attention for Semantic Segmentation

程式碼連結: https://github.com/lsa1997/PCAA
文章連結: https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Partial_Class_Activation_Attention_for_Semantic_Segmentation_CVPR_2022_paper.pdf
文章任務背景
場景分割的工作其實大致上可以主要可以分為兩個任務,在區域性視野下聚合同一類的畫素和在全域性視野下區分不同類別的畫素。說得簡單,但是在實際場景中,由於紋理、光照和位置的不同,屬於同一類別的畫素在特徵響應也可能會有很大的差異 ,這樣就會產生畫素之間的粘連,邊界區分不明顯的問題。 (不同類別內的粘連問題,如下圖e,CAM所展示的效果) 。對於這種問題,之前的工作會選擇使用像 金字塔 、 空洞卷積 還有 自注意力機制 這些結構,通過融合不同的感受野下的特徵資訊,不同的解析度下的空間資訊,以及深度挖掘不同類別下的特徵資訊,來幫助網路解決不同物體之間邊界區分,以及同一物體的畫素聚合。
為了消除區域性上下文方差引起的類內不一致,在原有的基於影象級分類的區域性定位演算法基礎上, 區域性類啟用注意 (Partial Class Activation Attention, PCAA)演算法,該演算法將定位任務細分為區域級預測任務,獲得了較好的定位效能。比如我們大致的鎖定物體出現的區域(區域性中心位置),然後計算區域性中心與其他畫素的相關程度再對區域內的物體進行更一步的區域性聚合。它同時利用區域性和全域性的資訊進行特徵聚合,
本文提出了 Partial CAM ,它將 CAM 的功能從整體預測擴充套件到區域級別的物體預測,並實現了非常不錯的定位效能。 到底有多不錯呢? 我們可以看看下圖的效果比較,會發現使用了Partial CAM的結構後的整體啟用效果會更加的 重視目標物件的分割邊緣 ,在同一物體中啟用效果會 更加聚集 ,非同一物體的會啟用畫素點會 更加遠離 。

文章的工作內容
文章希望有一種方法可以打破以往的在區域性視野下聚合同一類的畫素和在全域性視野下區分不同類別的畫素的建模思路,使用一個區域性延申到全域性的建模思路,完成場景分割。本文將輸入的影象分割成不重疊的patch塊,一個patch塊相當於一個小分割區域,通過對這樣的小區域進行畫素的啟用工作,不斷的堆疊,我們可以從區域性逐步的細化整目標的分割精度。具體來說,它首先根據區域性CAM收集到的區域性資訊,並計算每個patch內部畫素到類的相似度對映。對於每個類,所有的區域資訊會被聚合到一起,聚合在全域性中心周邊。 PCAA還 通過計算區域之間畫素之間的方差距離來考慮區域內容上下文的連貫性,更好的區分物體與物體之間的聯絡,解決邊界黏連的問題完成分割任務。
一個小提示,其實因為CAM其實原本設計並不是實現在語義分割任務上的,在空間上資訊並關注,所以我們需要一點本土化的改進。 這樣文章提出的畫素級別特徵聚集和啟用目前只能使用在語義分割場景中,因為語義分割場景會提供畫素級別的GT標註,像目標檢測和分類任務就暫時不能支援了。
我們提出了 區域類啟用注意 (PCAA)。與以往的簡單使用畫素特徵或全域性中心相比,PCAA同時使用區域性和全域性表示。與傳統的定位演算法相比,區域性定位演算法使網路學習到更多的空間資訊,能夠提供更可靠的定位結果。而且它在有效的保留了全域性特性之外,也考慮到了區域性特殊性,更加的適配 語義分割、影象超解析度這型別的 需要更加細緻的細節資訊的畫素級別任務。
文章方法的介紹

從模型的結構看,主要可以分為大整體和小區域性的兩個模組
Partial CAM(PCAM)
影象經過CNN進行特徵提取後,得到特徵圖xin ,特徵經過一個1x1的卷積之後,經過一個SxS的全域性平均池化層希望在每個patch的區域中都能生成CAM,區域的面積就是SxS。之後我們將label轉換為獨熱向量,然後我們把轉化為獨熱向量後的Label通過maxpool生成每個patch的標籤。
Sc=Sigmoid(AvgPoolxS×S(Ac))
ˆLc=MaxPoolS×S(Lc)
通過這樣的方式就可以讓PCAM的生成的區域性啟用圖得到有效的監督。與分類級標籤相比,畫素級別的標籤對網路空間資訊進行更細粒度的監督,因此,PCAM比普通的CAM具有更精確的定位效能,通過這樣的方式我們就可以得到有效精確的PCAM圖了。
PCAA
PCAA獨特地採用了部分CAM來建模畫素關係,在兩步注意力加權計算 (區域性和全域性) 中利用了不同型別的類中心。與整個影象相比,屬於同一類的特徵在每個部分內的方差往往更小。通過計算不同區域性類中心的相似度圖來緩解區域性特異性的影響。同時,採用全域性表示進行特徵聚合,保證了最終輸出的類內一致性。

PCAA中具體分為以下幾個結構
我們把得到的特徵圖分成大小為SxS的小Patch,我們把PCAM圖用SoftMax轉化為類別概率對各個特徵圖進行加權處理
1、Local Class Center
在得到每個部分的精準PCAM圖後,我們把啟用圖進行SoftMax的歸一化之後得到一個概率得分,然後將這組概率得分加權到各個patch上,對每組的patch進行整體的啟用。之後再利用 Sc 啟用每個patch的區域性中心點。
Local Class Center
採用圖卷積的單元來建模每個Patch區域性中心之間的相互作用以及特徵之間的相互聯絡,尋找相關連的單元節點,然後將節點們聚合更新出一版新的節點。
2、Global Class Representation
由於區域性中心點是在每個區域內計算的,同一類的目標物體表示也有敏感的特徵不是一致的(比如部分對顏色敏感,部分對紋路敏感)但是這些特徵都是聚合成完整物體不可缺失的特徵資訊。為了提高整個影象的類間的特徵一致性,我們需要所有區域中心通過加權聚合的方式進行融合,將同一類物體的敏感的特徵們進行聚合。
3、Feature Aggregation
我們將local的權重以及global的權重加權到特徵圖中進行線性的加權融合得到了最後的特徵圖輸出。

文章的貢獻
1、提出部分類啟用對映(Partial Class Activation Map)作為一種表示畫素關係的新策略。通過將影象級分類任務細分為區域級預測,改進了CAM的生成。
2、設計了部分類啟用注意(Partial Class Activation Attention)來增強特徵表示。它同時考慮了局部特異性和全域性一致性。
3、通過大量實驗驗證了所提方法的有效性。具體來說,方法在cityscape上實現了82.3%,在Pascal Context上實現了55.6%,在ADE20K上實現了46.74%。
看完後對於CAM的感受
本文首次探討了利用類啟用對映 (Class Activation Map, CAM) 建模畫素關係的方法。PCAM是一種可以用於語義分割的具有空間特性的類啟用對映建模方法。CAM方法可以從分類模型定位物件。這對於弱監督任務至關重要,但完全會忽略了空間關係。對於一個全監督的分割任務,畫素級別的註釋使我們能夠引入空間資訊,以更精確地生成CAM。
這次的CAM其實並沒有像以往的工作一樣,只是單純的作為一個視覺化的工具,而是挖掘了CAM的作為一個區域指導先驗的這樣一個可能性。通過有效的監督類啟用的資訊,讓CAM再一次切實的參與到模型的建設當中。我覺得以CAM作為構建一個即插即用的藍本模型,我認為是一個很可行的方向!
C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation on Medical Image

程式碼連結: https://github.com/Tian-lab/C-CAM
文章連結: https://openaccess.thecvf.com/content/CVPR2022/papers/Chen_C-CAM_Causal_CAM_for_Weakly_Supervised_Semantic_Segmentation_on_Medical_CVPR_2022_paper.pdf
文章任務背景介紹
第二篇文章的故事發生在醫療影象分割case中。近年來,CAM的弱監督語義分割((Weakly supervised semantic segmentation以下簡稱WSSS) 研究成果被提出,用於醫療影像上作品卻不多。現在階段的醫療影象分割任務中存在著兩個問題,第一個是目標前景和背景的邊界不清晰,第二個是在訓練階段中, 共現的現象非常嚴重。(共現現象是指在訓練階段中 同一張影象中出現不同的器官 )共現的主要問題是,同一環境下A器官出現次數比B器官多,可能效果會向A傾斜,對於需要識別出的B,比較難識別出。
我感覺共現這個情況我需要單獨拿出來說一下,再解釋一下
共現,字面意思一樣是共同出現,舉個例子比如說腹部MRI影象中不同器官總是同時出現,會給AI造成了一定的干擾,可能會把這種共現作為特徵資訊學習進去了。然而,這種同現現象在自然影象中並沒有那麼嚴重。例如,“人”並不總是和“馬”一起出現,反之亦然。因此當人騎著馬出現的時候,CAM模型可以知道影象的哪一部分是“人”,但遺憾的是,CAM模型很難在共現場景中正確啟用有效的識別物件。

在醫療影象的熱力圖中我們可以更加清晰的發現這兩個問題的存在。第一行中可以發現由於共現問題中導致的啟用錯誤(黃框表示為正確的啟用部分)。第二行中也可以通過類啟用圖發現分割過程中出現了前景和背景的黏連問題,邊界分割不清。由於醫療影象與自然影象不同,影象中的區分不同器官區域與傳統的自然影象中學習到的先驗知識(比如亮度變化、形狀、顏色)不相同,如果是分類任務識別會更加的精準,但是這種精準卻無法體現在醫療影象分割的任務中。因為在分類任務中並不需要考慮空間相關性的要素,比如當在統計意義上高度相關的要素可以區分類別,但是無法區分割槽域。比如說我可以說雨傘和下雨在統計學意義是高度相關的,如果是場景分類的時候我們看見有人打傘,那麼我們就可以認為這個場景在下雨。如果是分類的情況,啟用雨傘也是合理的。但是如果我要把雨水的區域分開,如果啟用雨傘就顯得毫無作用了,也顯得模型的毫無邏輯可以言。

文章的方法
總的來說文章藉助CAM以及通過因果推理鏈將因果關係引入了醫療影象弱監督的方向上。從圖中可以發現,文章用了CAM的粗分割,結合細節調整+粗糙的區域劃分(粗掩碼),以及在分類頭的作用下解決了上面提到的兩個問題。

Global Sampling Module
CAM雖然在分割任務中不夠準確。但是,它可以為醫學影象提供與分類和解剖高度相關的有價值的資訊。因此,我們設計了一個全域性取樣(GS)模組來利用這些有價值的資訊。
GS模組如圖下所示。訓練影象直接輸入Pure CAM (P-CAM)模型,得到粗糙的偽掩模。
P-CAM是一個類似CAM的模型,它由一個CNN主幹、一個分類頭、一個對映操作和一個上取樣操作組成。
在訓練階段,只使用CNN主幹和分類頭
在推斷階段,通過對映操作和上取樣操作生成粗糙的偽掩碼,以及具有全域性上下文聯絡的特徵圖。

Causality in medical image WSSS
在半監督的任務中關鍵是生成一個具有精確的偽掩膜,在C-CAM中我們通過因果鏈來進行邏輯上的細化決策。第一個鏈是分類任務中的因果關係控制,X→Y。說明影象內容X(原因)在具有全域性上下文聯絡的特徵圖的C的影響下影響最後的分類任務進行優化。第二條因果鏈是分析因果Z→S,通過分析結構資訊進而監督分割時形狀(位置內容)的形成。最後, 偽掩模 由類別特徵Y和形狀特徵S共同確定。

值的一提的是文章中出現了一個比較好玩的東西,就是上圖的因果關係圖。在醫療影象中利用因果關係,加強弱監督方向的工作,這篇工作是第一次。通過採用分類頭+CAM的方式去控制模型的學習方向,去做這兩個問題的解決方法,這是有趣的,也是令人信服的。
我們把上面的因果鏈路抽象為可以輸入到模型中的模組,整理得到了下面的結構。

Category-Causality Chain.
通過 MGC 對粗分割標籤圖進行監督和細化,生成出更精細的類別標籤。同時也會細分割標籤圖進行進一步的監督優化,努力的保證控制上下文聯絡的特徵能夠有效的得到關注,被順利啟用。
Anatomy-Causality Chain.
可以很好地捕捉目標的形狀和邊界,但不能完全確定語義,然後通過解剖結構資訊來解決語義問題。特別是對於一些多器官影像,如腹部掃描,因為共現的情況,CAMcc無法區分左腎和右腎。為此,文章設計了一個分析因果鏈來解決這個問題。在分析-因果關係鏈中,文章設計了 1/0指標 來表示醫學影象的位置資訊。最後,按如下公式計算分析-因果關係圖Ms,得到各類別的可能位置:

即對特徵資訊圖進行決策,當MGC被有效啟用的時候就將特徵進行保留,當MGC無法為有效啟用的時候就置為0,通過這種篩選的方式,弱化共現產生的影響,當共現的特徵消失的時候,與共現相關的特徵通道會被置為0,再出現時是因為特徵值被置為0,所以無法順利的啟用與共現相關的特徵資訊。
CAM對於文章的作用
我對於CAM出現在醫療影象上的事情是很支援的。因為醫療影象於自然影象的資訊出入還是很大的,其實如果不細說,我們根本沒有辦法判斷出整體效果如何,所以在CAM的加持下,我覺得醫療影象的工作會更具有說服力。但是在這篇文章中CAM有更重要的角色,就是參加弱監督模型做出粗掩碼,與上文的監督作用相類似,CAM的技術在文章中也是相當於一個資訊提取以及監督優化的角色。因為CAM一開始被設計出來的其實主要一個期待點是希望可以強化半監督的工作效果的,所以再次迴歸半監督何嘗不是一種不忘初心。
CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

程式碼連結: https://github.com/CVI-SZU/CLIMS
文章連結: https://openaccess.thecvf.com/content/CVPR2022/papers/Xie_CLIMS_Cross_Language_Image_Matching_for_Weakly_Supervised_Semantic_Segmentation_CVPR_2022_paper.pdf
文章背景
眾所周知,CAM(類啟用圖)通常只啟用有區別的物件區域,並且錯誤地包含許多與物件相關的背景。眾所周知,CAM (Class Activation Map)通常只啟用目標物件所在的區域,不可避免的將大量與物體無關的背景資訊激活了出來。由於WSSS(弱監督語義分割)模型只有固定的影象級別的標籤,因此很難抑制啟用目標物件會激活出的不同背景區域。

文章工作內容
在本文中,提出了一種用於WSSS場景中的跨語言影象匹配(CLIMS)框架,基於最近引入的對比語言影象預訓練(CLIP)模型。框架的核心思想是引入自然語言監督,啟用更完整的物件區域,抑制密切相關的背景區域。
特別地,文章中還對目標物件、背景區域和文字標籤專門設計了損失函式對模型進行指導,對每一類CAM激發更合理的物件區域。
文章基於最近引入的對比學習的預訓練模型(CLIP),提出了一種新的跨模態的匹配網路。框架的核心思想是引入自然語言的資訊,來輔助影象激活出更完整的目標識別區域,並抑制相關的背景區域的干擾。下圖展示的影象是通過引入自然語言資訊,協助影象啟用的效果展示,相信大家從CAM和ADV-CAM中都不難可以看到,跨模態資訊互動提升影象識別準確度方法的效果確實非常的不錯。
文章的方法
一個問題是,我們如何把文字內容和影象內容進行整合,利用相互的資訊監督優化。

Cross Language Image Matching Framework
傳統的WSSS方法只使用一組預先設計好的固定物件進行監督,但是文章中基於CLIP模型的文字+影象的模型放棄了這思路,基於Zero-shot的特性,自由探索物件與物件之間的關係。文章通過CAM提取出啟用的權重,x表示啟用前景的權重,(1-x)表示背景的啟用權重。我們把權重賦值進原圖中,就可以初步的將目標物件,以及背景進行分離,然後通過CLIP將提取出的目標物件資訊以及背景資訊與文字資訊進行互動,相互監督。
Object region and Text label Matching
監督的過程其實不難,主要還是CLIP的餘弦相似度的計算,之後再經過loss控制優化。生成的初始CAM會在 LOTM 的監督下逐漸接近目標物件。然而,單獨的LOTM並不區分背景和前景的區域,也不能抑制CAM對於背景區域的啟用。
Background region and Text label Matching
為了提高被啟用物件區域的完整性,設計了背景區域和文字標籤匹配損失 LBTM ,以包含更多的目標物件內容。
Co-occurring Background Suppression
前面提到的兩個損失函式只保證啟用圖完全覆蓋目標物件,沒有考慮到與目標物件出現的相關背景的錯誤啟用。共現可能會顯著降低生成的偽掩模的質量。但是,要想對這些背景進行畫素級標記是非常耗時和昂貴的,而且WSSS的場景中也不會進行這樣的操作。由於背景的種類比前景的種類要更復雜,使用ImageNet訓練的分類網路,很有可能沒有覆蓋背景物件中出現的類,這樣就沒有辦法對目標物件有清晰的認知了。然而,如果加入了文字資訊的監督,以及預訓練的CLIP就可以很好的避開這個缺陷。同時為了解決這一問題,我們設計了以下同時發生的背景抑制損失 LCBS ,在訓練過程中,骨幹網路會逐漸抑制背景區域的錯誤啟用,使LCBS最小化。
Area Regularization
其實上文的損失函式的把控下,基本可以消除很大部分的錯誤啟用,但是我們依舊也可以使用一個全域性化的方式。就是對啟用圖中啟用目標的區域面積大小進行約束,就可以,更進一步精細化啟用區域。因此,設計了一個畫素級的區域正則化項 LREG 來約束啟用圖的大小,以確保啟用圖中不包含無關背景。
最後通過對loss函式的加權組合,就能得到我們想要的結果了。
文章的貢獻
提出了一個文字驅動的學習框架CLIMS,為WSSS引入基於影象-文字匹配模型的監督。
設計了三個損失函式和一個區域面積的約束。目標物件、背景區域和與文字標籤的匹配損失保證了初始CAM的正確性和完整性。同時背景損失函式對背景抑制損失可以進一步大大降低類相關背景的影響。區域面積的正則化可以約束啟用區域的大小
在PASCAL VOC2012資料集上的大量實驗表明,提出的CLIMS顯著優於以前最先進的方法。
CAM在CLIMS中的作用
這是一篇非常有趣的工作,是對於CLIP的一次拓展,文章妙就妙在了,串聯起來了很多意想不到的東西,用CLIP生成CAM圖。在文章中,CAM其實很大程度也和上文一樣,參與到了網路中的選擇當中。其實看完這麼多文章還是發現原來CAM在半監督的任務上參與度是最高的,其實除了CAM的視覺化之外,CAM其實也具有選擇控制的作用。可能是CAM的解釋性的視覺化更加的通用,以至於蓋過了它在無監督上的光芒吧。但沒事文章可以將CAM的生成和CLIP對比學習進行聯動,這真的是一種新的嘗試,打開了CAM的在半監督領域的更多可能性,其實也將視覺化帶到了一個資訊高度。
結尾
我遇到了很多朋友,他們都在問我CAM的圖到底要怎麼畫才好。是不是用了CAM,就可以提高我實驗效果的說服力。我這裡的回答也還是那句,CAM可能確實是目前視覺化模型最直觀的手段,CAM的工作其實有對模型得出的過程進行溯源,這就是很多其他型別的視覺化做不到的點了。但是我覺得我們不該濫用這類的視覺化以及這類的控制結構,我們需要明白自己為啥用,我能不能用這樣的視覺化說明一些合乎邏輯的發現,真正發揮解釋作用,而不是一味的視覺化,卻忽略了分析,連一開始自己要優化的目標都忘記得一乾二淨了。CAM它的功能不只有視覺化模型,它還能參與模型的的任務當中,還能做弱監督,還能結合多模態的任務,真的不僅僅只有視覺化這一個特點而已。所以我們應該繼續發散思維,去找尋CAM更多的可能性, 更多相關的內容其實很建議大家可以後續去研究!
結尾++
其實我也嘗試在MMSegmentation的一些網路中加入了 CAM,實現了部分網路的 一些視覺化內容,我晚點會整程式碼,然後在MMSegmentation上面提一個 pr ,大家可以留意一下在MMSegmentation,如果覺得好用的話可以給MMSegmentation點一個大大的 star 。


公眾號後臺回覆“ 極市直播 ”獲取極市直播第100期(視訊例項分割新SOTA:SeqFormer&IDOL)PPT下載~
△點選卡片關注極市平臺,獲取 最新CV乾貨
極市乾貨
演算法競賽: 1000W獎池,AI演算法等你來戰!粵港澳大灣區(黃埔)國際演算法算例大賽正式開賽!
技術綜述 : 防止模型過擬合的方法彙總 | 淺析深度學習在影象處理中的應用趨勢及常見技巧
極視角動態: 極視角與惠普簽署戰略合作協議,共拓智慧工業市場 | 極智產品融合|極視角羅韻解讀「行業+AI」融合創新的實操手冊
# 極市平臺簽約作者 #
matrix明仔
知乎:戰鬥系牧師
一個希望百發百中CCF-A的在讀美食愛好者
研究領域:目標檢測、語義分割、多模態感知融合
( RGB、Thermal、Depth、Ldair等不同模態下感知資訊間的決策與融合)
作品精選
投稿方式:
新增小編微信Fengcall(微訊號:fengcall19),備註: 姓名-投稿
△長按新增極市平臺小編
“
點選閱讀原文進入CV社群
收穫更多技術乾貨
- CUDA 矩陣乘法終極優化
- 抽菸識別冠軍方案|ECV 2022
- 一文詳解目標檢測損失函式:IOU、GIOU、DIOU、CIOU
- 【Make YOLO Great Again】YOLOv1-v7全系列大解析(輸入側篇)
- 打破ViT SOTA壟斷!SegNeXt:卷積注意力機制重奪語義分割的勝利高地(NeurIPS 22)
- 如何通俗理解擴散模型?
- 高效壓縮99%引數量,讓3DLUT輕裝上陣!輕量型影象增強方案CLUT-Net開源
- 自監督對比學習的泛化性理論
- 重引數化你的優化器:VGG 型架構 特定的優化器 = 快速模型訓練 強悍效能
- CNN 視覺化:從 CVPR22 的出發,聊聊CAM是如何啟用我們文章的熱度
- YOLOX升級|阿里巴巴提出YOLOX-PAI,1ms內精度無敵,超越YOLOv6、PP-YOLOE
- 深度學習刷SOTA的trick大盤點
- 綜述:一文詳解50多種多模態影象融合方法
- 卷積神經網路數學原理解析
- 底層任務超詳細解讀 (一):模糊核迭代校正盲超分方法 IKC
- 壓縮 ViT 模型的新解法!微軟提出蒸餾 變換的權重複用壓縮方法MiniViT
- 【Make YOLO Great Again】YOLOv1-v7全系列大解析(Neck篇)
- 防止模型過擬合的方法彙總
- 作為審稿人,如何評價一篇論文的novelty?
- ECCV22 最新54篇論文分方向整理|包含Transformer、影象處理、人臉等(附下載)