ECCV 2022|全場景圖生成PSG:追求“最全面”的場景理解

語言: CN / TW / HK

機器之心專欄

作者:[email protected]

本文提出基於全景分割的全場景圖生成(panoptic scene graph generation,即PSG)任務。相比於傳統基於檢測框的場景圖生成任務,PSG任務要求全面地輸出影象中的所有關係(包括物體與物體間關係,物體與背景間關係,背景與背景間關係),並用準確的分割塊來定位物體。PSG任務旨在推動計算機視覺模型對場景最全面的理解和感知,用全面的識別結果更好地支撐場景描述、視覺推理等下游任務。同時PSG資料集提供的關係標註和全景分割也為解決當前影象生成領域對關係不敏感的問題創造了新的機遇。

研究背景

當下大多數的計算機視覺任務仍然只關注於影象感知。比如說,影象分類任務只需要模型識別影象中的物體物體類別。雖然目標檢測,影象分割等任務進一步要求找到物體的位置,然而,此類任務仍然不足以說明模型獲得了對場景全面深入的理解。以下圖為例,如果計算機視覺模型只檢測到圖片中的人、大象、柵欄、樹木等,我們通常不會認為模型已經理解了圖片,而該模型也無法根據理解做出更高階的決策,例如發出 “禁止投喂” 的警告。

事實上,在智慧城市、自動駕駛、智慧製造等許多現實世界的 AI 場景中,除了對場景中的目標進行定位外,我們通常還期待模型對影象中各個主體之間的關係進行推理和預測。例如,在自動駕駛應用中,自動車需要分析路邊的行人是在推車還是在騎自行車。根據不同的情況,相應的後續決策可能都會有所不同。在智慧工廠場景中,判斷操作員是否操作安全正確也需要監控端的模型有理解主體之間關係的能力。大多數現有的方法都是手動設定一些硬編碼的規則。這使得模型缺乏泛化性,難以適應其他特定情況。

場景圖生成任務(scene graph generation,或 SGG)就旨在解決如上的問題。在對目標物體進行分類和定位的要求之上,SGG 任務還需要模型預測物件之間的關係(見圖 2)。傳統場景圖生成任務的資料集通常具有物件的邊界框標註,並標註邊界框之間的關係。但是,這種設定有幾個固有的缺陷:(1)邊界框無法準確定位物體:如圖 2 所示,邊界框在標註人時不可避免地會包含人周圍的物體;(2)背景無法標註:如圖 2 所示,大象身後的樹木用 bounding box 標註,幾乎覆蓋了整個影象,所以涉及到背景的關係無法準確標註,這也使得場景圖無法完全覆蓋影象,無法達到全面的場景理解。

論文介紹

因此,來自新加坡南洋理工大學和商湯科技的研究者提出全場景圖生成(PSG)任務,攜同一個精細標註的大規模 PSG 資料集。該任務利用全景分割來全面準確地定位物件和背景,從而解決場景圖生成任務的固有缺點,從而推動該領域朝著全面和深入的場景理解邁進。

論文地址:http://arxiv.org/abs/2207.11247

專案地址:http://psgdataset.org/

OpenPSG開原始碼連結: http://github.com/Jingkang50/OpenPSG

HuggingFace Demo 連結:http://huggingface.co/spaces/ECCV2022/PSG

PSG 資料集

該研究提出的 PSG 資料集包含近五萬張 coco 的圖片。基於 coco 已有的全景分割標註,該研究標註了分割塊之間的關係,並精細地定義了 56 種關係,包括了位置關係(over,in front of,等),常見的物體間關係(hanging from 等),常見的生物動作(walking on,standing on,等),人類行為(cooking 等),交通場景中的關係(driving,riding 等),運動場景中的關係(kicking 等),以及背景間關係(enclosing 等)。該研究要求標註員能用更準確的動詞表達就絕不用更模糊的表達,並且儘可能全地標註圖中的關係。

PSG 模型效果展示

PSG 任務優勢

下圖的例子可以說明全場景圖生成(PSG)任務的優勢:

左圖來自於 SGG 任務的傳統資料集 Visual Genome (VG-150)。可以看到基於檢測框的標註通常不準確,而檢測框覆蓋的畫素也不能準確定位物體,尤其是椅子,樹木之類的背景。同時,基於檢測框的關係標註通常會傾向於的標註一些無聊的關係,如“人有頭”,“人穿著衣服”。相比之下,右圖中提出的 PSG 任務提供了更全面(包括前景和背景的互動)、更清晰(合適的物體粒度)和更準確(畫素級準確)的場景圖表示,以推動場景理解領域的發展。

兩大類PSG方法

為了支撐 PSG 任務,研究者搭建了一個開原始碼平臺 OpenPSG,其中實現了四個雙階段的方法和兩個單階段的方法,方便大家開發、使用、分析。

雙階段的方法利用 Panoptic-FPN 在第一階段中對影象進行全景分割。接下來該研究提取了全景分割得到的物體的特徵以及每一對物體融合的關係特徵,送至下一階段的關係預測階段。框架已整合復現了傳統場景圖生成的經典方法 IMP,VCTree,Motifs,和 GPSNet。

PSGTR 是基於 DETR 的單階段方法。模型首先在 a)中通過卷積神經網路 backbone 提取圖片特徵並加以位置編碼資訊作為編碼器的輸入,同時初始化一組用以表示三元組的 queries。與 DETR 類似地, 在 b)中模型將編碼器的輸出作為 key 和 value 與表示三元組的 queries 一同輸入解碼器進行 cross-attention 操作。隨後模型在 c)中將解碼完成的每個 query 分別輸入主謂賓三元組對應的預測模組,最後得到對應的三元組預測結果。

PSGFormer是基於雙decoder DETR的單階段方法。模型在 a) 通過 CNN 提取圖片特徵,加以位置編碼資訊輸入編碼器,同時初始化了兩組 queries 分別代表物體和關係。接著在 b)步驟裡,模型基於編碼器編碼的圖片資訊,分別在物體解碼器和關係編碼器中通過 cross-attention 解碼學習物體 query 和關係 query。當兩類 query 均學習完畢後,在 c)中通過對映後匹配,得到成對的三元組 query。最後在 d)中通過預測頭分別完成關於物體 query 和關係 query 的預測,並根據 c)中的匹配結果得到最終的三元組預測結果。

PSGTR 與 PSGFormer 都是在 DETR 的基礎上進行擴充套件和改進的模型,不同的地方在於 PSGTR 用一組 query 對於三元組直接建模而 PSGFormer 則通過兩組 query 分別對物體和關係建模,兩種方法各有利弊,具體可參考論文中實驗結果。

總結和展望

1. 大部分在 SGG 任務上有效的方法在 PSG 任務上依舊有效。然而有一些利用較強的資料集統計先驗,或主謂賓中謂語方向先驗的方法可能沒那麼奏效。這可能是由於 PSG 資料集相較於傳統 VG 資料集的 bias 沒有那麼嚴重,並且對謂語動詞的定義更加清晰可學。因此,研究團隊希望後續的方法關注視覺資訊的提取和對圖片本身的理解。統計先驗可能在刷資料集上有效,但不本質。

2. 相比於雙階段模型,單階段模型目前能達到更好的效果。這可能得益於單階段模型有關於關係的監督訊號可以直接傳遞到 feature map 端,使得關係訊號參與了更多的模型學習,有利於對關係的捕捉。但是由於本文只提出了若干基線模型,並沒有針對單階段或雙階段模型進行調優,因此目前還不能說單階段模型一定強於雙階段模型。這還希望參賽選手繼續探索。

3. 相比於傳統的 SGG 任務,PSG 任務基於全景分割圖進行關係配對,要求對於每個關係中主賓物體的 id 進行確認。相比於雙階段直接預測全景分割圖完成物體 id 的劃分,單階段模型需要通過一系列後處理完成這一步驟。若基於現有單階段模型進一步改進升級,如何在單階段模型中更有效的完成物體 id 的確認,生成更好的全景分割圖,仍是一個值得探索的話題。

最近大火的基於文字輸入的生成模型(如 DALL-E 2) 的畫作著實令人驚歎,但是也有研究表明,這些生成模型可能只是把文字中的幾個實體粘合在一起,甚至都沒有理解文字中表述的空間關係。如下圖,雖然輸入的是 “杯子在勺子上”,生成的圖片仍然都是 “勺子在杯子裡”。

正巧,PSG 資料集標註了基於 mask 的 scene graph 關係。我們可以利用 scene graph 和全景分割 mask 作為訓練對,得到一個 text2mask 的模型,在基於 mask 生成更細緻的圖片。因此,PSG 資料集有可能也為注重關係的影象生成提供了潛在的解決方案。