CVPR2022 | 長期行動預期的Future Transformer
前言 在本文中,作者提出了一種端到端的動作預測注意模型,稱為Future Transformer(FUTR),該模型利用所有輸入幀和輸出標記上的全域性注意來預測未來動作的分鐘長序列。與以往的自迴歸模型不同,該方法在並行解碼中學習預測未來動作的整個序列,從而為長期預測提供更準確和快速的推理。
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
論文:Future Transformer for Long-term Action Anticipation
論文:http://arxiv.org/pdf/2205.14022
程式碼:未釋出
背景
視訊中的長期動作預測最近成為高階智慧系統的一項基本任務。它旨在通過對視訊中過去行為的有限觀察來預測未來的一系列行為。雖然有越來越多的關於動作預測的研究,但最近的大部分工作都集中在預測幾秒鐘內的一個動作。相比之下,長期行動預期旨在預測未來幾分鐘內的多重行動序列。這項任務具有挑戰性,因為它需要了解過去和未來行動之間的長期依賴關係。
最近的長期預測方法將觀察到的視訊幀編碼為壓縮向量,並通過遞迴神經網路(RNN)對其進行解碼,以自迴歸方式預測未來動作序列。儘管在標準基準上的表現令人印象深刻,但它們存在以下侷限性:
1.編碼器過度壓縮輸入幀特徵,從而無法保留觀察幀之間的細粒度時間關係。
2.RNN解碼器在建模輸入序列的長期依賴性以及考慮過去和未來動作之間的全域性關係方面受到限制。
3.自迴歸解碼的序列預測可能會累積來自先前結果的錯誤,並且還會增加推理時間。
為了解決這些侷限性,作者引入了一種端到端的注意力神經網路(FUTR),用於長期的動作預測。該方法有效地捕捉了整個動作序列的長期關係。不僅觀察到了過去的行動,而且還發現了未來的潛在行動。如圖1所示的編碼器-解碼器結構(FUTR);編碼器學習捕捉過去觀測幀之間的細粒度長距離時間關係,而解碼器學習捕捉未來即將發生的動作之間的全域性關係以及編碼器的觀測特徵。
圖1 FUTR
貢獻
1.介紹了一種端到端的注意力神經網路,稱為FUTR,它有效地利用細粒度特徵和全域性互動來進行長期的動作預測。
2.提出在並行解碼中預測一系列動作,從而實現準確快速的推斷。
3.開發了一個整合模型,該模型通過在編碼器中分割動作和在解碼器中預測動作來學習不同的特徵表示。
4.提出的方法為長期行動預期、早餐和50份沙拉的標準基準設定了新的技術水平。
相關工作
1、行動預期
動作預測旨在通過對視訊的有限觀察來預測未來的動作。隨著大規模資料集的出現,人們提出了許多方法來解決下一個行動預測,在幾秒鐘內預測未來的單個行動。最近有人提出長期行動預測,從遠端視訊中預測遙遠未來的一系列行動。
Farha等人首先介紹了長期行動預期任務,並提出了兩種模型,RNN和CNN來處理該任務。Farha和Gall引入了GRU網路,以自迴歸的方式對未來活動的不確定性進行建模。他們在測試時預測未來行動的多個可能序列。Ke等人介紹了一種模型,該模型可以預測特定未來時間戳中的動作,而無需預測中間動作。他們表明,中間作用的迭代預測會導致誤差累積。以前的方法通常將觀察到的幀的動作標籤作為輸入,使用動作分割模型提取動作標籤。相比之下,最近的研究使用視覺特徵作為輸入。Farha等人提出了一個長期動作預測的端到端模型,將動作分割模型用於訓練中的視覺特徵。他們還引入了一個GRU模型,該模型在過去和未來的行動之間具有周期一致性。Sener等人提出了一種多尺度時間聚合模型,該模型將過去的視覺特徵聚合到壓縮向量中,然後使用LSTM網路迭代預測未來的行為。最近的工作通常利用RNN對過去的幀進行壓縮表示。相比之下,作者提出了一個端到端注意模型,該模型使用過去幀的細粒度視覺特徵來預測所有未來的並行動作。
2. 自我注意機制
自我注意(Self attention)最初被引入神經機器翻譯,以緩解RNN中學習長期依賴關係的問題,並已被廣泛應用於各種計算機視覺任務中。自我注意可以有效地學習影象域中影象畫素或斑塊之間的全域性互動作用。有幾種方法利用視訊領域中的注意機制來模擬短期視訊和長期視訊中的時間動態。與動作預測相關,Girdhar和Grauman最近推出了預測視訊轉換器(VT),它使用自我關注解碼器預測下一個動作。與VT不同,VT需要對長期預測進行自迴歸預測,作者的編碼器-解碼器模型有效地預測了未來幾分鐘的並行動作序列。
3. 並行解碼
transformer設計用於按順序預測輸出,即自迴歸解碼。由於推理成本隨著輸出序列的長度而增加,自然語言處理中的最新方法將自迴歸解碼替換為並行解碼。具有並行解碼的transformer模型也被用於計算機視覺任務,如目標檢測、相機校準和密集視訊字幕。我們將其用於長期行動預測,同時預測未來的一系列行動。在長期的動作預測中,並行解碼不僅可以實現更快的推理,還可以捕獲未來動作之間的雙向關係。
問題說明
長期行動預測的問題是從視訊的給定可觀察部分預測未來視訊幀的動作序列。圖2說明了問題設定。對於具有T幀的視訊,觀察到第一個αT幀,並預期下一個βT幀的動作序列;α 是視訊的觀察率,而β是預測比率。
圖2 長期行動預測的問題
方法
Future Transformer (FUTR)
在本文中,作者提出了一個完全基於注意力的網路,稱為FUTR,用於長期的行動預期。總體架構包括變壓器編碼器和解碼器,如圖3所示。
圖3 FUTR的總體架構
1. 編碼器
編碼器將視覺特徵作為輸入,分割過去幀的動作,通過自我注意學習不同的特徵表示。
作者使用從輸入幀中提取的視覺特徵,對時間跨度為τ的幀進行取樣,取樣的幀特徵被饋送到線性層,然後將啟用函式ReLU到E,建立輸入標記:
每個編碼器層由一個多頭自關注(MHSA)、層規範化(LN)和帶有剩餘連線的前饋網路(FFN)組成。定義了一種多頭注意(MHA),該注意基於縮放的點積注意:
最後一個編碼器層的最終輸出用於生成動作分段, 通過應用全連線(FC)層,後接softmax:
2. 解碼器
解碼器將可學習的標記作為輸入,稱為動作查詢,並平行預測未來動作標籤和相應的持續時間,通過自我注意和交叉注意學習過去和未來動作之間的長期關係。
查詢操作嵌入M個可學習標記。查詢的時間順序固定為與未來操作的時間順序相等,即第i個查詢對應於第i個未來操作。
每個解碼器層由一個MHSA、一個多頭交叉注意(MHCA)、LN和FFN組成。輸出查詢Ql+1從解碼器層獲得:
最後的解碼器層的最終輸出用於生成未來動作,通過應用FC層,後跟softmax和持續時間向量:
3. 目標動作分段損失
作者應用動作分段損失來學習編碼器中過去動作的特徵表示,作為輔助損失。動作分段損失Lseg定義:
行動預期損失定義:
持續時間迴歸損失定義:
最終損失:
實驗
表1 與最新技術的比較
表2 並行解碼與自迴歸解碼
表3 全域性自我關注與區域性自我關注
表5 損失消融
圖4 早餐上的交叉注意力地圖視覺化
圖5 早餐的定性結果
結論
作者引入了端到端注意神經網路FUTR,它利用過去和未來行動的全域性關係進行長期行動預測。該方法利用細粒度視覺特徵作為輸入,並預測並行解碼中的未來動作,從而實現準確快速的推理。通過在兩個基準上的大量實驗,證明了作者的方法的優勢,達到了最新的水平。
CV技術指南建立了一個計算機視覺技術交流群和免費版的知識星球,目前星球內人數已經700+,主題數量達到200+。
知識星球內將會每天釋出一些作業,用於引導大家去學一些東西,大家可根據作業來持續打卡學習。
CV技術群內每天都會發最近幾天出來的頂會論文,大家可以選擇感興趣的論文去閱讀,持續follow最新技術,若是看完後寫個解讀給我們投稿,還可以收到稿費。
另外,技術群內和本人朋友圈內也將釋出各個期刊、會議的徵稿通知,若有需要的請掃描加好友,並及時關注。
加群加星球方式:關注公眾號CV技術指南,獲取編輯微信,邀請加入。
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
公眾號其它文章
CVPR2022 | 長期行動預期的Future Transformer
CVPR2022 | iFS-RCNN:一種增量小樣本例項分割器
CVPR2022 | A ConvNet for the 2020s & 如何設計神經網路總結
CVPR2022 | PanopticDepth:深度感知全景分割的統一框架
CVPR2022 | 未知目標檢測模組STUD:學習視訊中的未知目標
從零搭建Pytorch模型教程(五)編寫訓練過程--一些基本的配置
從零搭建Pytorch模型教程(四)編寫訓練過程--引數解析
- 普通段位玩家的CV演算法崗上岸之路(2023屆秋招)
- 用於超大影象的訓練策略:Patch Gradient Descent
- 關於知識蒸餾,你一定要了解的三類基礎演算法
- 深度理解變分自編碼器(VAE) | 從入門到精通
- CUDA 教程(一) GPU 程式設計概述和 CUDA 環境搭建
- 一文總結當下常用的大型 transformer 效率優化方案
- 多模態學習有哪些架構?MBZUAI最新《多模態表示學習》綜述,29頁詳述多模態表示學習的演化、預訓練及其應用綜述
- Transformer-Based Learned Optimization
- U-Net在2022年相關研究的論文推薦
- ECCV 2022 | 新方案: 先剪枝再蒸餾
- CVPR2022 | 簡單高效的語義分割體系結構
- CVPR 2022 | 網路中批處理歸一化估計偏移的深入研究
- CVPR2022 | 通過目標感知Transformer進行知識蒸餾
- 經典論文 | 300FPS,超快結構感知的深度車道檢測
- YOLO系列梳理(九)初嘗新鮮出爐的YOLOv6
- CVPR2022 | 長期行動預期的Future Transformer
- CVPR2022 | 可精簡域適應
- CVPR2022 | 弱監督多標籤分類中的損失問題
- 計算機視覺中的論文常見單詞總結
- CVPR2022 | A ConvNet for the 2020s & 如何設計神經網路總結