BEV最新綜述 | 學術界和工業界方案彙總!優化方法與tricks

語言: CN / TW / HK

本文已參與「新人創作禮」活動,一起開啟掘金創作之路!

點擊進入→自動駕駛之心技術交流羣

後台回覆【ECCV2022】獲取ECCV2022所有自動駕駛方向論文!

學習感知任務的鳥瞰圖(BEV)中的強大表示法是一種趨勢,並引起了工業界和學術界的廣泛關注。大多數自動駕駛常規方法是在前視圖或透視圖中執行檢測、分割、跟蹤等。隨着傳感器配置變得越來越複雜,集成來自不同傳感器的多源信息並在統一視圖中表示特徵變得至關重要。BEV perception繼承了幾個優勢,如在BEV中表示周圍場景直觀且融合友好;並且在BEV中表示對象對於後續模塊最為理想,如在規劃和/或控制中。BEV感知的核心問題在於:(a) 如何通過從透視圖到BEV的視圖轉換來重建丟失的3D信息;(b) 如何在BEV網格中獲取GT;(c) 如何制定pipelines,以納入來自不同來源和view的特徵;(d) 如何適應和推廣算法,因為傳感器配置在不同場景中有所不同;

本調查回顧了關於BEV感知的最新工作,並對不同解決方案進行了深入分析。此外,還描述了行業中BEV方法的幾個系統設計,介紹了一整套實用指南,以提高BEV感知任務的性能,包括相機、激光雷達和融合輸入。最後,論文指出了該領域未來的研究方向,希望本報告能為社區提供一些信息,並鼓勵更多關於BEV感知的研究工作。

領域介紹

自動駕駛中的感知識別任務本質上是對物理世界的三維幾何重建。隨着傳感器的多樣性和數量越來越複雜,自動駕駛系統的裝備也越來越複雜,以統一的視角表示不同視圖中的特徵至關重要。眾所周知的鳥瞰圖(BEV)是一種自然而直接的候選視圖,可作為統一表示。與二維視覺領域中廣泛研究的前視圖或透視圖相比,BEV表示具有若干固有優點。首先,它沒有2D任務中普遍存在的遮擋或縮放問題。可以更好地解決具有遮擋或交叉交通的車輛識別問題。此外,以這種形式表示對象或道路元素將有利於方便後續模塊(如規劃、控制)的開發和部署。

基於輸入數據,論文將BEV感知研究主要分為三個部分:BEV camera、BEV激光雷達和BEV fusion,下圖描述了BEV感知家族的總體圖,具體地,BEV camera指示用於從多個環繞相機檢測或分割3D目標的視覺或以視覺為中心的算法;BEV激光雷達描述了從點雲輸入的檢測或分割任務;BEV fusion描述了來自多個傳感器輸入的融合機制,如相機、激光雷達、GNSS、里程計、高清地圖、CAN總線等;

圖片

當談到BEV感知研究的動機時,需要檢查三個重要方面。

1.意義

BEV感知是否會對學術界和/或社會產生真正和有意義的影響?眾所周知,與基於激光雷達或融合的解決方案相比,基於視覺的解決方案存在巨大的性能差距,例如,截至2022年8月提交時,僅視覺與激光雷達之間的第一排名方法差距超過了nuScenes數據集上NDS的20%,Waymo基準的差距甚至超過30%。這自然促使我們研究視覺解決方案是否能夠超越或等同於激光雷達方法。從學術角度來看,設計基於camera的pipelines以使其優於激光雷達的本質在於更好地理解從2D外觀輸入到3D幾何輸出的視圖轉換過程。如何像在點雲中那樣將相機特徵轉換為幾何表示,對學術界產生了有意義的影響。從工業角度考慮,將一套激光雷達設備納入SDV的成本很高。此外基於camera的pipelines可以識別長距離物體和基於顏色的道路元素(如交通燈),這兩種激光雷達方法都無法實現。

2.空間

BEV感知中是否存在需要大量創新的開放性問題?BEV感知背後的要點是從camera和激光雷達輸入中學習魯棒和可概括的特徵表示,這在激光雷達分支中很容易,因為輸入(點雲)具有這樣的3D特性。在相機分支中,這是非常重要的,因為從單目或多視圖設置中學習3D空間信息是困難的。雖然看到有人試圖通過姿勢估計[9]或時間運動[10]來學習更好的2D-3D對應關係,但BEV感知背後的核心問題需要從原始傳感器輸入進行深度估計的實質性創新,特別是對於相機分支。另一個關鍵問題是如何在pipelines的早期或中期融合特徵,大多數傳感器融合算法將該問題視為簡單的對象級融合或沿blob channel的樸素特徵連接。這可能解釋了為什麼由於相機和激光雷達之間的未對準或不準確的深度預測,某些融合算法表現不如僅使用激光雷達的解決方案。如何對齊和集成多模態輸入的特徵起着至關重要的作用,從而為創新留下了廣闊的空間。

論文主要回顧了近年來BEV感知研究的全貌,詳細闡述了BEV感知文獻的綜合分析,涵蓋了深度估計、視圖轉換、傳感器融合、域自適應等核心問題。介紹並討論了幾種重要的BEV感知工業系統級設計。除了理論貢獻外,我們還提供了一本實用的操作指南,用於提高各種BEV感知任務的性能。

數據集和Metrics

1.數據集

論文介紹了一些流行的自動駕駛數據集和常用的評估指標。下表總結了BEV感知的主要基準統計數據。通常,數據集由各種場景組成,每個場景在不同的數據集中具有不同的長度。總持續時間從幾十分鐘到幾百小時不等。對於BEV感知任務,3D邊界框標註和3D分割標註至關重要,高清地圖配置已成為主流趨勢,其中大部分可以用於不同的任務。

圖片

2.Metrics

LET-3D-APL:在僅camera的3D檢測中,使用LET-3D-APL代替3D-AP作為度量。與三維聯合交集(IoU)相比,LET-3D-APL允許預測邊界框的縱向定位誤差達到給定公差。LET-3D-APL通過使用定位親和力縮放精度來懲罰縱向定位誤差。LET-3D-APL的定義在數學上定義為:

圖片

mAP:類似於2D目標檢測中的AP度量,但匹配策略被從IoU替換為BEV平面上的2D中心距離。AP是在不同的距離閾值下計算的:0.5米、1米、2米和4米。通過平均上述閾值中的AP來計算mAP:

NDS:nuScenes檢測分數(NDS)是幾個指標的組合,mAP、mATE(平均平移誤差)、mASE(平均標度誤差)、mAOE(平均方位誤差)、mAVE(平均速度誤差)和mAAE(平均屬性誤差)。通過使用上述度量的加權和來計算NDS。mAP的權重為5,其餘為1:

圖片

BEV感知方法

如下表所示,近年來BEV感知文獻彙總。在輸入模式下,“L”表示激光雷達,“SC”表示單相機,“MC”表示多相機,“T”表示時間信息。在任務下,“ODet”用於3D對象檢測,“LDet”用於三維車道檢測,“MapSeg”用於地圖分割,“Plan”用於運動規劃,“MOT”用於多對象跟蹤。深度監督意味着僅camera模型使用稀疏/密集深度圖來監督模型。在數據集下,“nuS”代表nuScenes數據集,“WOD”代表Waymo開放數據集,“KITTI”代表KITTI數據集,“Lyft”代表Lyft 5級數據集,“OpenLane”代表OpenLane數據集,“AV”代表Argosse數據集,“Carla”代表Carla模擬器,“SUN”代表SUN RGB-D數據集,“ScanNet”代表ScanNet室內場景數據集。

圖片

1.基於Camera的BEV

只有camera的3D感知吸引了學術界的大量關注,因為與基於激光雷達的3D感知相比,這是一個未解決的問題,因此值得探索。核心問題是2D圖像自然不保留3D信息,因此當從2D圖像中不準確地提取深度信息時,難以獲得對象的精確3D定位。僅camera的3D感知可分為三個領域:單相機設置、stereo設置和多camera設置,它們有不同的技能來解決深度問題。

視圖轉換

最近的研究集中於視圖轉換模塊[3、4、10、26、46、47、48、50、55、58],其中3D信息是根據2D特徵或3D先驗假設構建的。從二維特徵構造三維信息通常表示為深度估計或cost volume。從3D先驗假設構造3D信息通常被表示為採樣2D特徵以通過3D-2D投影映射構造3D特徵,視圖變換在僅camera 3D感知中起着至關重要的作用,因為它是構建3D信息和編碼3D先驗假設的主要模塊。大體上,它可以分為兩個方面,一是利用2D特徵構造深度信息並將2D特徵“提升”到3D空間,另一個是通過3D到2D投影映射將2D特徵編碼到3D空間。我們將第一種方法命名為2D-3D,第二種方法稱為3D-2D。下圖給出了通過這兩種方法執行視圖轉換的概要路線圖:

圖片

從2D到3D,基於LSS的方法[5、45、46、48、56、63、95]根據2D特徵預測每個像素的深度分佈,而立體視覺方法[64、96]沿着由成本體積構建的平截頭體散佈2D特徵。

從3D到2D,基於單應矩陣的方法[4,26,47,55,85,112]假定稀疏的3D採樣點,並通過攝像機參數將其投影到2D平面。基於純網絡的方法[106、107、108、109、110]使用MLP或transformer隱式建模從3D空間到2D平面的投影矩陣。

LSS[56]引入了2D-3D方法,其中預測2D特徵上每個網格的深度分佈,然後通過相應的體素空間深度“提升”每個網格的2D特徵,並執行基於激光雷達的下游任務方法。這一過程可以表述為:

圖片請注意,這與偽激光雷達方法[92、93、94]非常不同,偽激光雷達的深度信息是從預訓練的深度估計模型中提取的,過程發生在2D特徵提取之前。在LSS[56]之後,還有另一項工作遵循了將深度公式化為按bin-wise分佈的相同思想,即CaDDN。CaDDN使用類似的網絡來預測深度分佈(分類深度分佈),將體素空間特徵壓縮到BEV空間,並在最後執行3D檢測。LSS[56]和CaDDN之間的主要區別在於,CaDDN使用深度地面真相來監督其分類深度分佈預測,因此,由於具有從2D空間提取3D信息的優越深度網絡。

\ 當我們聲稱“更好的深度網絡”時,它實際上是在學習路面和透視圖之間在特徵級別的隱式投影。這一軌跡來自後續工作,如BEVDet及其時間版本BEVDet4D、BEVDepth、BEVFusion和其它。請注意,在stereo設置中,通過強先驗更容易獲得深度值/分佈,其中一對攝像機(即系統的基線)應該是恆定的。這可以公式化為:

圖片

LIGA Stereo和DSGN等立體方法利用了這種強大的先驗,並與KITTI排行榜上基於激光雷達的替代方案不相上下。

第二個分支(3D到2D)可以追溯到三十年前,當時逆透視映射(IPM)通過有條件地假設3D空間中的對應點位於水平面上,制定了從3D空間到2D空間的投影。這種變換矩陣可以從相機的內外參數中數學推導。一系列工作[99、100、101、102、103、104、105]應用IPM以預處理或後處理的方式將元素從透視圖變換為鳥瞰圖。

在視圖變換的背景下,OFTNet[42]首先引入了3D-2D方法,即從3D到2D的特徵投影,其中將2D特徵投影到體素空間(3D空間)。它基於這樣的假設:從相機原點到3D空間中的特定點,深度分佈沿光線是均勻的。這種假設適用於自動駕駛中的大多數場景,但當涉及起伏道路時,有時會中斷。同時,許多BEV地圖分割工作[106、107、108、109、110]利用多層感知器或transformer架構[111]來隱式地建模3D-2D投影,而無需攝像機參數。最近,3D-2D幾何投影和神經網絡的組合變得流行[4,26,47,55,85,112],受特斯拉發佈其感知系統技術路線圖[6]的啟發。請注意,transformer架構中的交叉注意)

圖片

為了獲得穩健的檢測結果,BEVFormer[4]利用transformer中的交叉關注機制來增強3D-2D視圖轉換的建模。

BEV和透視法的討論

在僅camera3D感知的開始,主要焦點是如何從透視圖(即2D空間)預測3D對象定位。這是因為2D感知在該階段得到了很好的發展,如何為2D檢測器配備感知3D場景的能力成為主流方法[61、81、82、117、118、119、120、121、122、123、124、125、126、127、128、129]。後來,一些研究達到了BEV表示,因為在這種觀點下,很容易解決3D空間中具有相同尺寸的對象由於與相機的距離而在圖像平面上具有非常不同的尺寸的問題。這一系列工作[42、45、64、92、96]要麼預測深度信息,要麼利用3D先驗假設來補償相機輸入中3D信息的損失。雖然最近的基於BEV的方法[3、4、5、46、48、95、130]已經風靡了3D感知世界,但值得注意的是,這一成功主要得益於三個方面。第一個原因是nuScenes數據集[7],它具有多攝像機設置,非常適合在BEV下應用多視圖特徵聚合。第二個原因是,大多數僅使用相機的BEV感知方法從基於激光雷達的方法[43、44、66、83、84、131、132、133、134、135]中獲得了大量幫助,其形式為檢測頭和相應的損失設計。第三個原因是,單目方法的長期發展[81、82、117、120、121、136、137]使基於BEV的方法蓬勃發展,成為處理透視圖中特徵表示形式的良好起點。核心問題是如何從2D圖像中重建丟失的3D信息。為此,基於BEV的方法和透視方法是解決同一問題的兩種不同方法,它們並不相互排斥。

2.基於LiDAR的BEV

在特徵提取部分,主要有兩個分支將點雲數據轉換為BEV表示。根據pipilines順序,將這兩個選項分別稱為前BEV和後BEV,指示主幹網絡的輸入是來自3D表示還是來自BEV表示。如下圖所示,BEV激光雷達感知的一般流程。主要有兩個分支將點雲數據轉換為BEV表示。上分支提取3D空間中的點雲特徵,提供更準確的檢測結果。下分支提取2D空間中的BEV特徵(原始點雲轉換),提供更高效的網絡。

圖片

BEV前特徵提取

除了對原始點雲進行基於點的方法處理之外,基於體素的方法將點體素化為離散網格,這通過離散化連續三維座標提供了更有效的表示。基於離散體素表示、3D卷積或3D稀疏卷積可用於提取點雲特徵。VoxelNet[43]堆疊多個體素特徵編碼(VFE)層以編碼體素中的點雲分佈作為體素特徵,

PV-RCNN將點和體素分支結合起來,以學習更具辨別力的點雲特徵。具體而言,高質量的3D提案由體素分支生成,而點分支為提案細化提供額外信息。SA-SSD設計了一個輔助網絡,將主幹網絡中的體素特徵轉換回點級表示,以明確利用3D點雲的結構信息,並減少下采樣中的損失。Voxel R-CNN採用3D卷積主幹提取點雲特徵。然後在BEV上應用2D網絡以提供目標proposal,這些proposal通過提取的特徵進行細化。它實現了與基於點的方法相當的性能。object DGCNN[141]將3D目標檢測任務建模為BEV中動態圖上的消息傳遞。在將點雲轉換為BEV特徵圖之後,預測查詢點迭代地從關鍵點收集BEV特徵。VoTr[139]引入了局部注意力、擴展注意力和快速體素查詢,以使大量體素上的注意力機制能夠用於大上下文信息。SST[67]將提取的體素特徵視為標記,然後在非重疊區域中應用稀疏區域注意和區域移位,以避免對基於體素的網絡進行下采樣。AFDetV2[68]通過引入關鍵點輔助監控和多任務頭,形成了單級無錨網絡。

BEV後特徵提取

由於三維空間中的體素稀疏且不規則,應用三維卷積是低效的。對於工業應用,可能不支持3D卷積等算子,期望合適和有效的3D檢測網絡。MV3D[142]是將點雲數據轉換為BEV表示的第一種方法。在將點離散到BEV網格中之後,根據網格中的點獲得高度、強度和密度的特徵,以表示網格特徵。由於BEV網格中有許多點,因此在此過程中,信息損失相當大。其它工作[143、144、145、146、147、148]遵循類似模式,使用BEV網格中的統計數據表示點雲,例如最大高度和強度平均值。PointPillars[44]首先介紹了柱的概念,這是一種具有無限高度的特殊類型的體素。它利用PointNet[131]的簡化版本來學習柱中點的表示。然後,編碼特徵可以由標準2D卷積網絡和檢測頭處理。儘管點柱的性能不如其他3D主幹網令人滿意,但其及其變體具有高效率,因此適合於工業應用。

一些討論

點雲數據由神經網絡直接處理,在連續3D空間中計算點之間的鄰域關係,這帶來了額外的時間消耗並限制了神經網絡的感受域。最近的工作[43,84]利用離散網格來表示點雲數據;採用卷積運算提取特徵。然而,將點雲數據轉換為任何形式的表示不可避免地會導致信息丟失。BEV前特徵提取中的現有技術方法利用具有細粒度大小的體素,保留了點雲數據中的大部分3D信息,因此有利於3D檢測,作為一種權衡,它需要高內存消耗和計算成本。將點雲數據直接轉換為BEV表示避免了3D空間中的複雜操作。當高度維度被壓縮時,信息的巨大損失變得不可避免。最有效的方法是使用統計數據表示BEV特徵圖,但其結果較差。基於pillar的方法[44]平衡了性能和成本,成為工業應用的流行選擇。如何處理性能和效率之間的權衡成為基於激光雷達應用的關鍵挑戰。

3.BEV Fusion

逆透視映射(IPM)[157]利用攝像機內外矩陣的幾何約束將像素映射到BEV平面。儘管由於平地假設而不準確,但它提供了在BEV中統一圖像和點雲的可能性。Lift splat Shot(LSS)[56]是第一種預測圖像特徵深度分佈的方法,引入神經網絡來學習不適定相機到激光雷達轉換問題。其它工作[41,58]開發了不同的方法來進行視圖轉換。考慮到從透視圖到BEV的視圖轉換方法,下圖顯示了融合圖像和點雲數據的一般管道。模態特定特徵提取器用於分別提取透視圖和BEV中的特徵。在轉換為BEV中的表示之後,融合來自不同傳感器的特徵圖。也可以在BEV表示中引入時間和自我運動信息。

圖片

激光雷達相機融合

兩部同名的作品BEVFusion[5,95]從不同方向探索了BEV中的融合。由於攝像機到激光雷達投影[72,159]拋棄了相機特徵的語義密度,BEVFusion[5]設計 一種有效的相機到BEV變換方法,將相機特徵有效地投影到BEV中,然後使用卷積層將其與激光雷達BEV特徵融合。BEVFusion[95]將BEV融合視為保持感知系統穩定性的魯棒性主題,它將攝像機和激光雷達特徵編碼到同一BEV中,以確保相機和激光激光雷達流的獨立性。這種設計使感知系統能夠在傳感器故障時保持穩定性。除了BEVFusion[5,95],UVTR[158]表示模態特定體素空間中的不同輸入模式,無需高度壓縮,以避免語義歧義,並實現進一步交互。圖像體素空間是通過將每個視圖的圖像特徵變換為預定義空間來構建的,其中為每個圖像生成深度分佈。使用常見的3D卷積網絡構建點體素空間。然後在兩個體素空間之間進行跨模態交互,以增強模態特定信息。

時間融合

時間信息在推斷對象的運動狀態和識別遮擋方面起着重要作用。BEV為連接不同時間戳中的場景表示提供了一個理想的橋樑,因為BEV特徵地圖的中心位置對ego-car來説是永久的。MVFuseNet[160]利用BEV和range視圖進行時間特徵提取,其它工作[52、62、63]使用ego運動將先前的BEV特徵與當前座標對齊,然後融合當前BEV特徵以獲得時間特徵。BEVDet4D[63]使用空間對齊操作,然後連接多個要素圖,將先前的要素圖與當前幀融合。BEVFormer[4]和UniFormer[161]採用軟方式融合時間信息,注意模塊用於分別融合來自先前BEV特徵圖和先前幀的時間信息。關於ego car的運動,注意模塊在不同時間戳表徵中的位置也會被自我運動信息所修正。

一些討論

由於圖像在透視座標中,點雲在3D座標中,兩種模式之間的空間對齊成為一個重要問題。儘管使用幾何投影關係很容易將點雲數據投影到圖像座標上,但點雲數據的稀疏特性使得提取信息特徵變得困難。相反,由於透視圖中缺乏深度信息,將透視圖中的圖像轉換為3D空間將是一個不適定問題。基於現有知識,以前的工作,如IPM[157]和LSS[56]可以將透視圖中的信息轉換為BEV,為多傳感器和時間融合提供統一表示。激光雷達和攝像機數據在BEV空間的融合為3D檢測任務提供了令人滿意的性能。這種方法還保持了不同模式的獨立性,這為構建更強大的感知系統提供了機會。對於時間融合,通過考慮自我運動信息,可以在BEV空間中直接融合不同時間戳中的表示。由於BEV座標與3D座標一致,通過監控控制和運動信息很容易獲得自我運動補償。考慮到魯棒性和一致性,BEV是多傳感器和時間融合的理想表示。

工業界中的BEV感知設計

近年來,BEV感知在行業中的流行趨勢。上圖描述了工業應用中傳感器融合的兩個典型範例,在BEV感知研究之前,大多數自動駕駛公司基於perspective view輸入構建感知系統。圖a基於幾何先驗,將來自圖像的3D結果從2D結果轉換。然後,我們融合圖像和激光雷達的預測,利用一些手工製作的方法,這些方法在現實場景中並不總是表現良好。相反,圖b基於BEV的方法使用神經網絡執行2D到3D轉換,並集成特徵,而不是來自不同模態的直接檢測輸出,從而減少手工設計,提高魯棒性。

下圖總結了全球公司提出的各種BEV感知架構:

圖片

下表描述了詳細的模型/輸入選項,請注意,本調查中提供的所有信息均來自公共資源;不同計劃之間的比較和分析基於事實:

圖片

1.輸入數據

基於BEV的感知算法支持不同的數據模式,包括相機、激光雷達、雷達、IMU和GPS。攝像機和激光雷達是自動駕駛的主要感知傳感器,一些產品僅使用攝像機作為輸入傳感器,例如特斯拉[6]、PhiGent[166]、Mobileye[164]。其他採用一套相機和激光雷達組合,例如Horizon[162],HAOMO[163]。請注意,IMU和GPS信號通常用於傳感器融合計劃[6、162、163],特斯拉和Horizon等的情況也是如此。

2. Feature Extractor

特徵提取器用於將原始數據轉換為適當的特徵表示,該模塊通常由主幹和neck組成。特徵提取器有不同的組合,例如,HAOMO[163]中的ResNet[149]和Tesla[6]中的RegNet[167]可以用作圖像主幹,neck可以是HAOMO[163]的FPN[79],Tesla[6]的BiFPN[168]等。對於點雲輸入,HAOMO[163]的基於pilliar的選項或Mobileye的基於體素的選項是主幹的理想候選。

3.PV到BEV轉換

在行業中執行視圖轉換主要有四種方法:

(a)固定IPM。基於平坦地面假設,固定變換可以將PV特徵投影到BEV空間,固定IPM投影也處理地平面,然而,它對車輛顛簸和路面平整度敏感。

(b) 自適應IPM利用通過一些姿態估計方法獲得的SDV的外部參數,並相應地將特徵投影到BEV。儘管自適應IPM對車輛姿態具有魯棒性,但它仍然假設地面平坦。

(c) 基於transformer的BEV變換採用密集transformer將PV特徵投影到BEV空間。這種數據驅動的轉換在沒有事先假設的情況下運行良好,因此被特斯拉、Horizon和HAOMO廣泛採用[61,62,163]。

(d) ViDAR於2018年初由Waymo和Mobileye在不同地點並行提出[13,164],以表明基於相機或視覺輸入使用像素級深度將PV特徵投影到BEV空間的實踐,類似於激光雷達中的表示形式。

術語ViDAR相當於大多數學術文獻中提出的偽激光雷達概念。配備ViDAR,可以將圖像和後續特徵直接轉換為點雲,然後,可以應用基於點雲的方法來獲得BEV特徵。最近已經看到許多ViDAR應用,特斯拉、Mobileye、Waymo、豐田[6、13、164、169、170]等。總體而言,transformer和ViDAR的選擇在行業中最為普遍。

4.Fusion模塊

在先前的BEV變換模塊中完成了不同攝像機源之間的對準。在融合單元中,進一步整合了攝像機和激光雷達的BEV特徵。通過這樣做,不同形式的特徵最終被整合成一種統一的形式。

5.時空模塊

通過在時間和空間上堆疊BEV特徵,可以構建特徵隊列。時間堆棧每固定時間推送和彈出一個特徵點,而空間堆棧每固定距離推送一個。在將這些堆棧中的特徵融合為一種形式後,可以獲得對遮擋具有魯棒性的時空BEV特徵[61,63]。聚合模塊可以是3D卷積、RNN或transformer的形式。基於時間模塊和車輛運動學,可以維護圍繞ego車輛的大型BEV特徵圖,並局部更新特徵圖,就像特斯拉的空間RNN模塊[6]中那樣。

6.預測頭

在BEV感知中,多頭設計被廣泛採用。由於BEV特徵聚集了來自所有傳感器的信息,所有3D檢測結果都從BEV特徵空間解碼。同時,PV結果(對於自動駕駛仍然有價值)也從一些設計中的相應PV特徵中解碼。預測結果可分為三類:(a)低水平結果與物理約束有關,如光流、深度等。(b) 實體級結果包括對象的概念,即車輛檢測、車道線檢測等。(c)結構級結果表示對象之間的關係,包括對象跟蹤、運動預測等。

經驗和trick

數據增強

用於2D識別任務的圖像上的通用數據增強適用於基於相機的BEV感知任務。一般來説,可以將增強分為靜態增強和空間變換,靜態增強僅涉及顏色變化,基於顏色變化的增強是直接適用的。對於涉及空間變換的增強,除了相應變換的地面真相外,還需要攝像機參數的校準。最近的工作中採用的常見增強是顏色抖動、翻轉、多尺度調整大小、旋轉、裁剪和網格遮罩。在BEVFormer++中,採用了顏色抖動、翻轉、多尺度調整大小和網格掩碼。輸入圖像按0.5和1.2之間的因子縮放,以0.5的比率翻轉;總面積的最大30%被正方形掩模隨機掩模。值得注意的是,在BEV感知中有兩種翻轉圖像的方法。第一種方法是簡單地相應地翻轉圖像、GT和相機參數。第二種方法還翻轉圖像順序,以保持圖像之間重疊區域的一致性,這類似於對稱翻轉整個3D空間。下圖為BEV下的一些trick和消融實驗:

圖片

在lidar分割任務中,與檢測任務不同,重數據增強可以應用於分割任務,包括隨機旋轉、縮放、翻轉和點平移。對於隨機旋轉,從[0,2π)範圍內選取一個角度,旋轉應用於x-y平面上的每個點。從[0.9,1.1]範圍中選擇比例因子,然後乘以點雲座標,沿X軸、Y軸或X軸和Y軸進行隨機翻轉。對於隨機平移,每個軸的偏移分別從均值為0和標準偏差為0.1的正態分佈中採樣。除了座標和反射率,還可以利用額外的信息來提高模型性能。對於未標記的圖像數據,通過將點雲標籤投影到相應的圖像上並加密稀疏註釋,從註釋的點雲數據中獲得圖像上的語義標籤。訓練圖像模型以提供2D語義分割結果,然後,將預測的語義標籤繪製為點雲數據的一個熱矢量,作為表示圖像語義信息的附加通道。此外,還可以使用時間信息,因為自動駕駛中的數據集通常是按順序收集的,過去的連續幀與當前幀連接。

圖片

Test-time Augmentation

2D任務的常見測試時間增加,包括多尺度和翻轉測試,以提高3D情況下的精度。在BEVFormer++中,這一部分以使用標準數據增強(如多尺度和翻轉)的形式進行了簡單探索。多尺度增強的程度與訓練相同,從0.75到1.25不等。

點雲數據在推理過程中,使用了多個TTA,包括旋轉、縮放和翻轉。對於縮放,所有模型的縮放因子都設置為{0.90、0.95、1.00、1.05、1.10},因為縮放因子越大或越小對模型性能有害。翻轉與訓練階段相同,即沿X軸、Y軸以及X軸和Y軸。

後處理

雖然BEV檢測消除了多攝像機對象級融合的負擔,但也觀察到了可從進一步後處理中獲益的顯著事實,利用2D檢測結果對3D檢測結果進行重複移除是有益的,其中2D box和3D box是二分匹配的。

參考

[1] Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe.2022                                                     

往期回顧

史上最全 | BEV感知算法綜述(基於圖像/Lidar/多模態數據的3D檢測與分割任務)

自動駕駛之心】全棧技術交流羣

自動駕駛之心是首個自動駕駛開發者社區,聚焦目標檢測、語義分割、全景分割、實例分割、關鍵點檢測、車道線、目標跟蹤、3D目標檢測、多傳感器融合、SLAM、光流估計、軌跡預測、高精地圖、規劃控制、AI模型部署落地等方向;

加入我們: 自動駕駛之心技術交流羣彙總!

自動駕駛之心【知識星球】想要了解更多自動駕駛感知(分類、檢測、分割、關鍵點、車道線、3D目標檢測、多傳感器融合、目標跟蹤、光流估計、軌跡預測)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規劃控制、領域技術方案、AI模型部署落地實戰、行業動態、崗位發佈,歡迎掃描下方二維碼,加入自動駕駛之心知識星球(三天內無條件退款),日常分享論文+代碼,這裏匯聚行業和學術界大佬,前沿技術方向盡在掌握中,期待交流!

「其他文章」