作為一年一度AI計算機視覺領域的頂級盛會，CVPR 2022已經落下帷幕。位元組跳動旗下的極光-多模態技術團隊、智慧創作團隊、火山引擎多媒體實驗室團隊斬獲了多項競賽冠軍，覆蓋「視覺問答」「影象例項分割」「長視訊內容理解」「圖片恢復」「圖片視訊壓縮技術」等場景。

其中，兩項研究成果有助於視障人群克服日常生活中的視覺挑戰、提升殘障人士出行的安全性，助力打造無障礙環境。

幫助視障人士精準“識圖”，視覺問答競賽高精度技術方案奪冠

「視覺問答」是通向多模人工智慧的一項基礎挑戰。一個自然的應用就是幫助視障人群克服他們日常生活中的視覺挑戰，如視障群體通過手機鏡頭捕獲視覺內容，再通過語言對鏡頭中的內容發起提問。AI演算法識別和描述物體或場景，並以自然語言的方式進行回答。

在CVPR 2022上，權威視覺問答競賽VizWiz提出了新的挑戰：AI在回答（Talk）有關的視覺問題時，必須精確地高亮出（Show）相應的視覺證據。

憑藉端到端的DaVI（Dual Visual-Linguistic Interaction）視覺語言互動新正規化，位元組跳動極光-多模態技術團隊成功拿下VizWiz 2022 Answer Grounding競賽的第1名，相關論文也被CVPR 2022 Workshop接收。

詳細技術方案見： Junwen Pan et. al. Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer Grounding

VizWiz 大賽已經舉辦了4屆，主辦學者來自卡內基梅隆大學（CMU）、華盛頓大學、科羅拉多大學、微軟和蘋果，在多模態視覺問答領域有深厚的學術成就和技術積澱。

極光-多模態團隊專注於醫學人工智慧的研究，致力於通過影像、語音、文字等大資料打造業界頂尖人工智慧企業醫療平臺，團隊積極參與前沿技術的研究和落地，參與發表柳葉刀、MICCAI、AAAI等多篇醫療領域和計算機視覺領域的頂會頂刊論文，並獲得多項國際醫療AI競賽冠軍。

本屆競賽中，極光-多模態團隊與來自國內外知名研究機構和高校的60+團隊同臺競技，包括Google DeepMind、紐約大學、浪潮國家重點實驗室、西安電子科技大學和特拉華大學等。奪冠方案的精度相比基線演算法提升43.14%，領先在多模領域深耕已久的DeepMind團隊3.65% 。

無障礙出行更安全！AVA比賽奪冠

在基於合成數據的例項分割挑戰賽（ Accessibility Vision and Autonomy Challenge ，下文簡稱AVA) 中，位元組跳動智慧創作AI平臺「Byte-IC-AutoML」團隊脫穎而出，成為該比賽唯一賽道的冠軍。

本屆AVA競賽由波士頓大學(Boston University)和卡耐基梅隆大學(Carnegie Mellon University)聯合舉辦。

競賽通過渲染引擎得到一個合成的例項分割資料集，其中包含與殘疾行人互動的自治系統的資料樣例。競賽目標是為無障礙相關人與物提供目標檢測和例項分割的基準和方法。

Byte-IC-AutoML團隊提出了一個Parallel Pre-trained Transformers (PPT)框架，框架主要由：1）並行的大規模預訓練的Transformers 2）Balance Copy-Paste 資料增強 3）畫素級別的非極大值抑制和模型融合三個模組組成，較好地解決了比賽資料集存在的領域泛化、長尾/少樣本和分割魯棒性問題。

詳細技術方案見：http://arxiv.org/abs/2206.10845

目前，城市和交通資料集主要是面向通用場景, 只包含正常的交通工具和行人，資料集中缺乏殘疾人、行動不便者及其輔助裝置的類別，利用當前已有資料集得到的檢測模型無法檢測出這些人與物體。

奪冠技術方案對目前自動駕駛和街道場景理解有廣泛應用：經過這些合成數據得到的模型可以識別出“輪椅”“在輪椅上的人”“拄柺杖的人”等少見的類別，不但能更加精細地對人群/物體進行劃分, 而且不會錯判誤判導致場景理解錯誤。此外, 通過這種合成數據的方式, 可以構造出真實世界中比較少見類別的資料, 從而訓練更加通用, 更加完善的目標檢測模型。

模擬人腦感知，長視訊理解挑戰雙料冠軍

通用事件邊界檢測（Generic Event Boundary Detection，GEBD）賽道

認知科學研究表明，人類大腦會感知事件的邊界，將事件劃分若干語義接近的子單元。在這個背景下，CVPR2022 在長視訊理解挑戰中提出的GEBD賽道，旨在模擬人腦，感知視訊中各事件的變化，將整個視訊分割為若干相對獨立的，且通用、無分類(taxonomy-free)的事件邊界。 憑藉自研的SC-Transformer++框架，位元組跳動智慧創作—視覺智慧團隊奪得該項賽道冠軍。

團隊在Structured Context Transformer(SC-Transformer)基礎上進行了改進和優化，提出了SC-Transformer++ 框架來完成這一挑戰。

SC-Transformer++主要由五個模組組成：

1）用於視訊資訊特徵提取的Backbone；

2）用於提取視訊時序上下文資訊的SC-Transformer；

3）用於邊界檢測的Boundary-Prediction；

4）用於邊界幀類別檢測的Category-Prediction；

5）用於檢測結果融合的Final-Selection。

能夠較好地對連續的長視訊在時序上建模並捕捉時序上下文資訊，並幫助模型更好地理解視訊中事件變化的邊界，學習各事件複雜的語義。

詳細技術方案見：http://arxiv.org/abs/2206.12634

在實際應用中，通用事件邊界檢測將中長視訊拆分為若干短視訊片段。由於許多視訊理解相關的演算法都是基於短視訊片段進行的，將中長視訊拆分為若干條較短的片段在視訊理解演算法鏈路上具有重要意義。

通用事件邊界描述賽道（Generic Event Boundary Captioning Challenge，GEBC）

通用事件邊界描述是一項具有挑戰性的多模態理解任務，是視訊理解更精細化的重要一步。傳統的視訊描述的目的是理解整個視訊片段，而通用事件邊界描述只關注視訊中瞬間觸發場景狀態變化的時刻，旨在自動生成給定視訊邊界時刻的狀態、邊界時刻之前的狀態和之後的狀態的描述。

智慧創作—視覺智慧團隊提出了一個Dual-Stream Transformer(DST)框架，並奪得競賽冠軍。

DST主要由多模態特徵提取模組和多模態特徵融合編碼模組兩個部分組成。

多模態特徵提取模組

為了得到更好的視覺特徵表示，團隊使用了三種不同的特徵提取器提取不同維度的視覺特徵：（1）使用在4億“影象-文字”對上預訓練過的CLIP提取視訊的外觀特徵；（2）使用在Kinetics400資料集上預訓練過的VideoSwin提取視訊的運動特徵；（3）使用在Visual Genome資料集上預訓練過的Faster R-CNN提取視訊的區域特徵。同時，使用在Wikipedia上預訓練過的Glove模型對文字進行編碼，這裡的文字主要包含視訊的類別資訊和視訊的描述。

多模態特徵融合編碼模組

為了實現不同模態資訊的充分融合，團隊設計了一個基於Transformer的雙分支網路結構，一個分支的輸入為視訊的外觀特徵、運動特徵以及文字，另一個分支的輸入為區域特徵和文字。網路結構中的自注意力模組負責同一分支中不同特徵的特徵對齊，交叉注意力模組負責不同分支的特徵之間的特徵互動。最後，兩個分支都輸出各自的預測文字，並通過交叉熵損失函式完成模型訓練。

圖片恢復技術哪家強，NTIRE ESR挑戰賽主賽道奪冠

New Trends in Image Restoration and Enhancement（NTIRE）是近年來計算機影象恢復領域最具影響力的全球性賽事。智慧創作音視訊團隊憑藉自研的RLFN演算法從43支隊伍中脫穎而出，拿下NTIRE 2022 Challenge on Efficient Super-Resolution（ESR）主賽道冠軍，在子賽道Overall Performance也位列第二。

競賽旨在設計一種網路：在維持Peak Signal-to-Noise Ratio（PSNR ）指標與Baseline相當水平的同時（PSNR在驗證集保持29.00dB ），從執行時間、引數量、FLOPs、Activations以及記憶體佔用等方面進行至少一個維度的優化。其任務以4倍超分為基準，驗證集以及測試集均為DIV2K，下采樣方式為bicubic。

團隊在基於Convolutional Neural Network（CNN）的RFDN結構基礎上，提出了一個更高效的網路結構RLFN，在推理速度和效果之間取得良好的平衡，並且重新思考contrastive loss的使用，設計了一個更適合超分任務的淺層特徵提取器，此外還提出了更有效的多階段warm-start訓練策略。

詳細技術方案見：http://arxiv.org/abs/2205.07514

智慧創作是位元組跳動的多媒體創新科技研究所和綜合型服務商。覆蓋了計算機視覺、圖形學、語音、拍攝編輯、特效、客戶端、AI平臺、服務端工程等技術領域，在部門內部實現了前沿演算法-工程系統-產品全鏈路的閉環，旨在以多種形式向公司內部各業務線以及外部合作客戶提供業界最前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。團隊技術能力正通過火山引擎對外開放。

基於深度學習的影象壓縮大賽：高、低位元速率雙賽道奪冠

（Challenge on Learned Image Compression ，CLIC）

隨著以深度學習為代表的新一代人工智慧技術不斷取得突破，基於深度學習的影象視訊壓縮技術被視為超越傳統壓縮技術能力極限的明日之星。CLIC旨在鼓勵基於深度學習的影象視訊壓縮技術的研究，展示深度學習技術在影象視訊壓縮領域的最新進展，為深度學習技術在壓縮領域的進一步探索指明方向。

火山引擎多媒體實驗室團隊的參賽平臺Neutron Star（中子星）在高位元速率視訊壓縮和低位元速率視訊壓縮兩個賽道，主客觀指標均以絕對優勢奪冠。

另外，Neutron Star在影象賽道以峰值信噪比（PSNR）計算的客觀指標排名第一。

火山引擎Neutron Star平臺有機融合了傳統壓縮技術與深度學習壓縮技術。針對傳統編碼模組，火山引擎加入了非對稱四叉樹劃分、歷史仿射模型繼承等創新技術；針對智慧編碼模組，引入了基於深度學習的環路濾波、自適應變取樣等技術。

通用模擬測試結果表明，相比最新的視訊編碼標準H.266/VVC，火山引擎Neutron Star平臺對編碼效率的提升平均超過28%。

詳細技術方案見：A Neural-Network Enhanced Video Coding Framework Beyond VVC

火山引擎多媒體實驗室致力於研究、探索多媒體領域的前沿技術，參與國際、國內多媒體方向的標準化工作，為多媒體內容分析、處理、壓縮、傳輸、創新互動等領域提供軟硬體解決方案，眾多創新演算法已經廣泛應用在抖音、西瓜視訊等產品的點播、直播、實時通訊、圖片等多媒體業務，並向火山引擎的企業級客戶提供技術服務。

火山引擎是位元組跳動旗下的雲服務平臺，將位元組跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業，提供雲基礎、視訊與內容分發、大資料、人工智慧、開發與運維等服務，幫助企業在數字化升級中實現持續增長。

CVPR2022：位元組跳動多項競賽奪冠，影象壓縮大賽高、低位元速率雙賽道奪冠