BEV最新綜述 | 學術界和工業界方案彙總!優化方法與tricks

語言: CN / TW / HK

本文已參與「新人創作禮」活動,一起開啟掘金創作之路!

點選進入→自動駕駛之心技術交流群

後臺回覆【ECCV2022】獲取ECCV2022所有自動駕駛方向論文!

學習感知任務的鳥瞰圖(BEV)中的強大表示法是一種趨勢,並引起了工業界和學術界的廣泛關注。大多數自動駕駛常規方法是在前檢視或透檢視中執行檢測、分割、跟蹤等。隨著感測器配置變得越來越複雜,整合來自不同感測器的多源資訊並在統一檢視中表示特徵變得至關重要。BEV perception繼承了幾個優勢,如在BEV中表示周圍場景直觀且融合友好;並且在BEV中表示物件對於後續模組最為理想,如在規劃和/或控制中。BEV感知的核心問題在於:(a) 如何通過從透檢視到BEV的檢視轉換來重建丟失的3D資訊;(b) 如何在BEV網格中獲取GT;(c) 如何制定pipelines,以納入來自不同來源和view的特徵;(d) 如何適應和推廣演算法,因為感測器配置在不同場景中有所不同;

本調查回顧了關於BEV感知的最新工作,並對不同解決方案進行了深入分析。此外,還描述了行業中BEV方法的幾個系統設計,介紹了一整套實用指南,以提高BEV感知任務的效能,包括相機、鐳射雷達和融合輸入。最後,論文指出了該領域未來的研究方向,希望本報告能為社群提供一些資訊,並鼓勵更多關於BEV感知的研究工作。

領域介紹

自動駕駛中的感知識別任務本質上是對物理世界的三維幾何重建。隨著感測器的多樣性和數量越來越複雜,自動駕駛系統的裝備也越來越複雜,以統一的視角表示不同檢視中的特徵至關重要。眾所周知的鳥瞰圖(BEV)是一種自然而直接的候選檢視,可作為統一表示。與二維視覺領域中廣泛研究的前檢視或透檢視相比,BEV表示具有若干固有優點。首先,它沒有2D任務中普遍存在的遮擋或縮放問題。可以更好地解決具有遮擋或交叉交通的車輛識別問題。此外,以這種形式表示物件或道路元素將有利於方便後續模組(如規劃、控制)的開發和部署。

基於輸入資料,論文將BEV感知研究主要分為三個部分:BEV camera、BEV鐳射雷達和BEV fusion,下圖描述了BEV感知家族的總體圖,具體地,BEV camera指示用於從多個環繞相機檢測或分割3D目標的視覺或以視覺為中心的演算法;BEV鐳射雷達描述了從點雲輸入的檢測或分割任務;BEV fusion描述了來自多個感測器輸入的融合機制,如相機、鐳射雷達、GNSS、里程計、高清地圖、CAN匯流排等;

圖片

當談到BEV感知研究的動機時,需要檢查三個重要方面。

1.意義

BEV感知是否會對學術界和/或社會產生真正和有意義的影響?眾所周知,與基於鐳射雷達或融合的解決方案相比,基於視覺的解決方案存在巨大的效能差距,例如,截至2022年8月提交時,僅視覺與鐳射雷達之間的第一排名方法差距超過了nuScenes資料集上NDS的20%,Waymo基準的差距甚至超過30%。這自然促使我們研究視覺解決方案是否能夠超越或等同於鐳射雷達方法。從學術角度來看,設計基於camera的pipelines以使其優於鐳射雷達的本質在於更好地理解從2D外觀輸入到3D幾何輸出的檢視轉換過程。如何像在點雲中那樣將相機特徵轉換為幾何表示,對學術界產生了有意義的影響。從工業角度考慮,將一套鐳射雷達裝置納入SDV的成本很高。此外基於camera的pipelines可以識別長距離物體和基於顏色的道路元素(如交通燈),這兩種鐳射雷達方法都無法實現。

2.空間

BEV感知中是否存在需要大量創新的開放性問題?BEV感知背後的要點是從camera和鐳射雷達輸入中學習魯棒和可概括的特徵表示,這在鐳射雷達分支中很容易,因為輸入(點雲)具有這樣的3D特性。在相機分支中,這是非常重要的,因為從單目或多檢視設定中學習3D空間資訊是困難的。雖然看到有人試圖通過姿勢估計[9]或時間運動[10]來學習更好的2D-3D對應關係,但BEV感知背後的核心問題需要從原始感測器輸入進行深度估計的實質性創新,特別是對於相機分支。另一個關鍵問題是如何在pipelines的早期或中期融合特徵,大多數感測器融合演算法將該問題視為簡單的物件級融合或沿blob channel的樸素特徵連線。這可能解釋了為什麼由於相機和鐳射雷達之間的未對準或不準確的深度預測,某些融合演算法表現不如僅使用鐳射雷達的解決方案。如何對齊和整合多模態輸入的特徵起著至關重要的作用,從而為創新留下了廣闊的空間。

論文主要回顧了近年來BEV感知研究的全貌,詳細闡述了BEV感知文獻的綜合分析,涵蓋了深度估計、檢視轉換、感測器融合、域自適應等核心問題。介紹並討論了幾種重要的BEV感知工業系統級設計。除了理論貢獻外,我們還提供了一本實用的操作指南,用於提高各種BEV感知任務的效能。

資料集和Metrics

1.資料集

論文介紹了一些流行的自動駕駛資料集和常用的評估指標。下表總結了BEV感知的主要基準統計資料。通常,資料集由各種場景組成,每個場景在不同的資料集中具有不同的長度。總持續時間從幾十分鐘到幾百小時不等。對於BEV感知任務,3D邊界框標註和3D分割標註至關重要,高清地圖配置已成為主流趨勢,其中大部分可以用於不同的任務。

圖片

2.Metrics

LET-3D-APL:在僅camera的3D檢測中,使用LET-3D-APL代替3D-AP作為度量。與三維聯合交集(IoU)相比,LET-3D-APL允許預測邊界框的縱向定位誤差達到給定公差。LET-3D-APL通過使用定位親和力縮放精度來懲罰縱向定位誤差。LET-3D-APL的定義在數學上定義為:

圖片

mAP:類似於2D目標檢測中的AP度量,但匹配策略被從IoU替換為BEV平面上的2D中心距離。AP是在不同的距離閾值下計算的:0.5米、1米、2米和4米。通過平均上述閾值中的AP來計算mAP:

NDS:nuScenes檢測分數(NDS)是幾個指標的組合,mAP、mATE(平均平移誤差)、mASE(平均標度誤差)、mAOE(平均方位誤差)、mAVE(平均速度誤差)和mAAE(平均屬性誤差)。通過使用上述度量的加權和來計算NDS。mAP的權重為5,其餘為1:

圖片

BEV感知方法

如下表所示,近年來BEV感知文獻彙總。在輸入模式下,“L”表示鐳射雷達,“SC”表示單相機,“MC”表示多相機,“T”表示時間資訊。在任務下,“ODet”用於3D物件檢測,“LDet”用於三維車道檢測,“MapSeg”用於地圖分割,“Plan”用於運動規劃,“MOT”用於多物件跟蹤。深度監督意味著僅camera模型使用稀疏/密集深度圖來監督模型。在資料集下,“nuS”代表nuScenes資料集,“WOD”代表Waymo開放資料集,“KITTI”代表KITTI資料集,“Lyft”代表Lyft 5級資料集,“OpenLane”代表OpenLane資料集,“AV”代表Argosse資料集,“Carla”代表Carla模擬器,“SUN”代表SUN RGB-D資料集,“ScanNet”代表ScanNet室內場景資料集。

圖片

1.基於Camera的BEV

只有camera的3D感知吸引了學術界的大量關注,因為與基於鐳射雷達的3D感知相比,這是一個未解決的問題,因此值得探索。核心問題是2D影象自然不保留3D資訊,因此當從2D影象中不準確地提取深度資訊時,難以獲得物件的精確3D定位。僅camera的3D感知可分為三個領域:單相機設定、stereo設定和多camera設定,它們有不同的技能來解決深度問題。

檢視轉換

最近的研究集中於檢視轉換模組[3、4、10、26、46、47、48、50、55、58],其中3D資訊是根據2D特徵或3D先驗假設構建的。從二維特徵構造三維資訊通常表示為深度估計或cost volume。從3D先驗假設構造3D資訊通常被表示為取樣2D特徵以通過3D-2D投影對映構造3D特徵,檢視變換在僅camera 3D感知中起著至關重要的作用,因為它是構建3D資訊和編碼3D先驗假設的主要模組。大體上,它可以分為兩個方面,一是利用2D特徵構造深度資訊並將2D特徵“提升”到3D空間,另一個是通過3D到2D投影對映將2D特徵編碼到3D空間。我們將第一種方法命名為2D-3D,第二種方法稱為3D-2D。下圖給出了通過這兩種方法執行檢視轉換的概要路線圖:

圖片

從2D到3D,基於LSS的方法[5、45、46、48、56、63、95]根據2D特徵預測每個畫素的深度分佈,而立體視覺方法[64、96]沿著由成本體積構建的平截頭體散佈2D特徵。

從3D到2D,基於單應矩陣的方法[4,26,47,55,85,112]假定稀疏的3D取樣點,並通過攝像機引數將其投影到2D平面。基於純網路的方法[106、107、108、109、110]使用MLP或transformer隱式建模從3D空間到2D平面的投影矩陣。

LSS[56]引入了2D-3D方法,其中預測2D特徵上每個網格的深度分佈,然後通過相應的體素空間深度“提升”每個網格的2D特徵,並執行基於鐳射雷達的下游任務方法。這一過程可以表述為:

圖片請注意,這與偽鐳射雷達方法[92、93、94]非常不同,偽鐳射雷達的深度資訊是從預訓練的深度估計模型中提取的,過程發生在2D特徵提取之前。在LSS[56]之後,還有另一項工作遵循了將深度公式化為按bin-wise分佈的相同思想,即CaDDN。CaDDN使用類似的網路來預測深度分佈(分類深度分佈),將體素空間特徵壓縮到BEV空間,並在最後執行3D檢測。LSS[56]和CaDDN之間的主要區別在於,CaDDN使用深度地面真相來監督其分類深度分佈預測,因此,由於具有從2D空間提取3D資訊的優越深度網路。

\ 當我們聲稱“更好的深度網路”時,它實際上是在學習路面和透檢視之間在特徵級別的隱式投影。這一軌跡來自後續工作,如BEVDet及其時間版本BEVDet4D、BEVDepth、BEVFusion和其它。請注意,在stereo設定中,通過強先驗更容易獲得深度值/分佈,其中一對攝像機(即系統的基線)應該是恆定的。這可以公式化為:

圖片

LIGA Stereo和DSGN等立體方法利用了這種強大的先驗,並與KITTI排行榜上基於鐳射雷達的替代方案不相上下。

第二個分支(3D到2D)可以追溯到三十年前,當時逆透視對映(IPM)通過有條件地假設3D空間中的對應點位於水平面上,制定了從3D空間到2D空間的投影。這種變換矩陣可以從相機的內外引數中數學推導。一系列工作[99、100、101、102、103、104、105]應用IPM以預處理或後處理的方式將元素從透檢視變換為鳥瞰圖。

在檢視變換的背景下,OFTNet[42]首先引入了3D-2D方法,即從3D到2D的特徵投影,其中將2D特徵投影到體素空間(3D空間)。它基於這樣的假設:從相機原點到3D空間中的特定點,深度分佈沿光線是均勻的。這種假設適用於自動駕駛中的大多數場景,但當涉及起伏道路時,有時會中斷。同時,許多BEV地圖分割工作[106、107、108、109、110]利用多層感知器或transformer架構[111]來隱式地建模3D-2D投影,而無需攝像機引數。最近,3D-2D幾何投影和神經網路的組合變得流行[4,26,47,55,85,112],受特斯拉釋出其感知系統技術路線圖[6]的啟發。請注意,transformer架構中的交叉注意)

圖片

為了獲得穩健的檢測結果,BEVFormer[4]利用transformer中的交叉關注機制來增強3D-2D檢視轉換的建模。

BEV和透視法的討論

在僅camera3D感知的開始,主要焦點是如何從透檢視(即2D空間)預測3D物件定位。這是因為2D感知在該階段得到了很好的發展,如何為2D檢測器配備感知3D場景的能力成為主流方法[61、81、82、117、118、119、120、121、122、123、124、125、126、127、128、129]。後來,一些研究達到了BEV表示,因為在這種觀點下,很容易解決3D空間中具有相同尺寸的物件由於與相機的距離而在影象平面上具有非常不同的尺寸的問題。這一系列工作[42、45、64、92、96]要麼預測深度資訊,要麼利用3D先驗假設來補償相機輸入中3D資訊的損失。雖然最近的基於BEV的方法[3、4、5、46、48、95、130]已經風靡了3D感知世界,但值得注意的是,這一成功主要得益於三個方面。第一個原因是nuScenes資料集[7],它具有多攝像機設定,非常適合在BEV下應用多檢視特徵聚合。第二個原因是,大多數僅使用相機的BEV感知方法從基於鐳射雷達的方法[43、44、66、83、84、131、132、133、134、135]中獲得了大量幫助,其形式為檢測頭和相應的損失設計。第三個原因是,單目方法的長期發展[81、82、117、120、121、136、137]使基於BEV的方法蓬勃發展,成為處理透檢視中特徵表示形式的良好起點。核心問題是如何從2D影象中重建丟失的3D資訊。為此,基於BEV的方法和透視方法是解決同一問題的兩種不同方法,它們並不相互排斥。

2.基於LiDAR的BEV

在特徵提取部分,主要有兩個分支將點雲資料轉換為BEV表示。根據pipilines順序,將這兩個選項分別稱為前BEV和後BEV,指示主幹網路的輸入是來自3D表示還是來自BEV表示。如下圖所示,BEV鐳射雷達感知的一般流程。主要有兩個分支將點雲資料轉換為BEV表示。上分支提取3D空間中的點雲特徵,提供更準確的檢測結果。下分支提取2D空間中的BEV特徵(原始點雲轉換),提供更高效的網路。

圖片

BEV前特徵提取

除了對原始點雲進行基於點的方法處理之外,基於體素的方法將點體素化為離散網格,這通過離散化連續三維座標提供了更有效的表示。基於離散體素表示、3D卷積或3D稀疏卷積可用於提取點雲特徵。VoxelNet[43]堆疊多個體素特徵編碼(VFE)層以編碼體素中的點雲分佈作為體素特徵,

PV-RCNN將點和體素分支結合起來,以學習更具辨別力的點雲特徵。具體而言,高質量的3D提案由體素分支生成,而點分支為提案細化提供額外資訊。SA-SSD設計了一個輔助網路,將主幹網路中的體素特徵轉換回點級表示,以明確利用3D點雲的結構資訊,並減少下采樣中的損失。Voxel R-CNN採用3D卷積主幹提取點雲特徵。然後在BEV上應用2D網路以提供目標proposal,這些proposal通過提取的特徵進行細化。它實現了與基於點的方法相當的效能。object DGCNN[141]將3D目標檢測任務建模為BEV中動態圖上的訊息傳遞。在將點雲轉換為BEV特徵圖之後,預測查詢點迭代地從關鍵點收集BEV特徵。VoTr[139]引入了局部注意力、擴充套件注意力和快速體素查詢,以使大量體素上的注意力機制能夠用於大上下文資訊。SST[67]將提取的體素特徵視為標記,然後在非重疊區域中應用稀疏區域注意和區域移位,以避免對基於體素的網路進行下采樣。AFDetV2[68]通過引入關鍵點輔助監控和多工頭,形成了單級無錨網路。

BEV後特徵提取

由於三維空間中的體素稀疏且不規則,應用三維卷積是低效的。對於工業應用,可能不支援3D卷積等運算元,期望合適和有效的3D檢測網路。MV3D[142]是將點雲資料轉換為BEV表示的第一種方法。在將點離散到BEV網格中之後,根據網格中的點獲得高度、強度和密度的特徵,以表示網格特徵。由於BEV網格中有許多點,因此在此過程中,資訊損失相當大。其它工作[143、144、145、146、147、148]遵循類似模式,使用BEV網格中的統計資料表示點雲,例如最大高度和強度平均值。PointPillars[44]首先介紹了柱的概念,這是一種具有無限高度的特殊型別的體素。它利用PointNet[131]的簡化版本來學習柱中點的表示。然後,編碼特徵可以由標準2D卷積網路和檢測頭處理。儘管點柱的效能不如其他3D主幹網令人滿意,但其及其變體具有高效率,因此適合於工業應用。

一些討論

點雲資料由神經網路直接處理,在連續3D空間中計算點之間的鄰域關係,這帶來了額外的時間消耗並限制了神經網路的感受域。最近的工作[43,84]利用離散網格來表示點雲資料;採用卷積運算提取特徵。然而,將點雲資料轉換為任何形式的表示不可避免地會導致資訊丟失。BEV前特徵提取中的現有技術方法利用具有細粒度大小的體素,保留了點雲資料中的大部分3D資訊,因此有利於3D檢測,作為一種權衡,它需要高記憶體消耗和計算成本。將點雲資料直接轉換為BEV表示避免了3D空間中的複雜操作。當高度維度被壓縮時,資訊的巨大損失變得不可避免。最有效的方法是使用統計資料表示BEV特徵圖,但其結果較差。基於pillar的方法[44]平衡了效能和成本,成為工業應用的流行選擇。如何處理效能和效率之間的權衡成為基於鐳射雷達應用的關鍵挑戰。

3.BEV Fusion

逆透視對映(IPM)[157]利用攝像機內外矩陣的幾何約束將畫素對映到BEV平面。儘管由於平地假設而不準確,但它提供了在BEV中統一影象和點雲的可能性。Lift splat Shot(LSS)[56]是第一種預測影象特徵深度分佈的方法,引入神經網路來學習不適定相機到鐳射雷達轉換問題。其它工作[41,58]開發了不同的方法來進行檢視轉換。考慮到從透檢視到BEV的檢視轉換方法,下圖顯示了融合影象和點雲資料的一般管道。模態特定特徵提取器用於分別提取透檢視和BEV中的特徵。在轉換為BEV中的表示之後,融合來自不同感測器的特徵圖。也可以在BEV表示中引入時間和自我運動資訊。

圖片

鐳射雷達相機融合

兩部同名的作品BEVFusion[5,95]從不同方向探索了BEV中的融合。由於攝像機到鐳射雷達投影[72,159]拋棄了相機特徵的語義密度,BEVFusion[5]設計 一種有效的相機到BEV變換方法,將相機特徵有效地投影到BEV中,然後使用卷積層將其與鐳射雷達BEV特徵融合。BEVFusion[95]將BEV融合視為保持感知系統穩定性的魯棒性主題,它將攝像機和鐳射雷達特徵編碼到同一BEV中,以確保相機和鐳射鐳射雷達流的獨立性。這種設計使感知系統能夠在感測器故障時保持穩定性。除了BEVFusion[5,95],UVTR[158]表示模態特定體素空間中的不同輸入模式,無需高度壓縮,以避免語義歧義,並實現進一步互動。影象體素空間是通過將每個檢視的影象特徵變換為預定義空間來構建的,其中為每個影象生成深度分佈。使用常見的3D卷積網路構建點體素空間。然後在兩個體素空間之間進行跨模態互動,以增強模態特定資訊。

時間融合

時間資訊在推斷物件的運動狀態和識別遮擋方面起著重要作用。BEV為連線不同時間戳中的場景表示提供了一個理想的橋樑,因為BEV特徵地圖的中心位置對ego-car來說是永久的。MVFuseNet[160]利用BEV和range檢視進行時間特徵提取,其它工作[52、62、63]使用ego運動將先前的BEV特徵與當前座標對齊,然後融合當前BEV特徵以獲得時間特徵。BEVDet4D[63]使用空間對齊操作,然後連線多個要素圖,將先前的要素圖與當前幀融合。BEVFormer[4]和UniFormer[161]採用軟方式融合時間資訊,注意模組用於分別融合來自先前BEV特徵圖和先前幀的時間資訊。關於ego car的運動,注意模組在不同時間戳表徵中的位置也會被自我運動資訊所修正。

一些討論

由於影象在透視座標中,點雲在3D座標中,兩種模式之間的空間對齊成為一個重要問題。儘管使用幾何投影關係很容易將點雲資料投影到影象座標上,但點雲資料的稀疏特性使得提取資訊特徵變得困難。相反,由於透檢視中缺乏深度資訊,將透檢視中的影象轉換為3D空間將是一個不適定問題。基於現有知識,以前的工作,如IPM[157]和LSS[56]可以將透檢視中的資訊轉換為BEV,為多感測器和時間融合提供統一表示。鐳射雷達和攝像機資料在BEV空間的融合為3D檢測任務提供了令人滿意的效能。這種方法還保持了不同模式的獨立性,這為構建更強大的感知系統提供了機會。對於時間融合,通過考慮自我運動資訊,可以在BEV空間中直接融合不同時間戳中的表示。由於BEV座標與3D座標一致,通過監控控制和運動資訊很容易獲得自我運動補償。考慮到魯棒性和一致性,BEV是多感測器和時間融合的理想表示。

工業界中的BEV感知設計

近年來,BEV感知在行業中的流行趨勢。上圖描述了工業應用中感測器融合的兩個典型範例,在BEV感知研究之前,大多數自動駕駛公司基於perspective view輸入構建感知系統。圖a基於幾何先驗,將來自影象的3D結果從2D結果轉換。然後,我們融合影象和鐳射雷達的預測,利用一些手工製作的方法,這些方法在現實場景中並不總是表現良好。相反,圖b基於BEV的方法使用神經網路執行2D到3D轉換,並整合特徵,而不是來自不同模態的直接檢測輸出,從而減少手工設計,提高魯棒性。

下圖總結了全球公司提出的各種BEV感知架構:

圖片

下表描述了詳細的模型/輸入選項,請注意,本調查中提供的所有資訊均來自公共資源;不同計劃之間的比較和分析基於事實:

圖片

1.輸入資料

基於BEV的感知演算法支援不同的資料模式,包括相機、鐳射雷達、雷達、IMU和GPS。攝像機和鐳射雷達是自動駕駛的主要感知感測器,一些產品僅使用攝像機作為輸入感測器,例如特斯拉[6]、PhiGent[166]、Mobileye[164]。其他採用一套相機和鐳射雷達組合,例如Horizon[162],HAOMO[163]。請注意,IMU和GPS訊號通常用於感測器融合計劃[6、162、163],特斯拉和Horizon等的情況也是如此。

2. Feature Extractor

特徵提取器用於將原始資料轉換為適當的特徵表示,該模組通常由主幹和neck組成。特徵提取器有不同的組合,例如,HAOMO[163]中的ResNet[149]和Tesla[6]中的RegNet[167]可以用作影象主幹,neck可以是HAOMO[163]的FPN[79],Tesla[6]的BiFPN[168]等。對於點雲輸入,HAOMO[163]的基於pilliar的選項或Mobileye的基於體素的選項是主幹的理想候選。

3.PV到BEV轉換

在行業中執行檢視轉換主要有四種方法:

(a)固定IPM。基於平坦地面假設,固定變換可以將PV特徵投影到BEV空間,固定IPM投影也處理地平面,然而,它對車輛顛簸和路面平整度敏感。

(b) 自適應IPM利用通過一些姿態估計方法獲得的SDV的外部引數,並相應地將特徵投影到BEV。儘管自適應IPM對車輛姿態具有魯棒性,但它仍然假設地面平坦。

(c) 基於transformer的BEV變換採用密集transformer將PV特徵投影到BEV空間。這種資料驅動的轉換在沒有事先假設的情況下執行良好,因此被特斯拉、Horizon和HAOMO廣泛採用[61,62,163]。

(d) ViDAR於2018年初由Waymo和Mobileye在不同地點並行提出[13,164],以表明基於相機或視覺輸入使用畫素級深度將PV特徵投影到BEV空間的實踐,類似於鐳射雷達中的表示形式。

術語ViDAR相當於大多數學術文獻中提出的偽鐳射雷達概念。配備ViDAR,可以將影象和後續特徵直接轉換為點雲,然後,可以應用基於點雲的方法來獲得BEV特徵。最近已經看到許多ViDAR應用,特斯拉、Mobileye、Waymo、豐田[6、13、164、169、170]等。總體而言,transformer和ViDAR的選擇在行業中最為普遍。

4.Fusion模組

在先前的BEV變換模組中完成了不同攝像機源之間的對準。在融合單元中,進一步整合了攝像機和鐳射雷達的BEV特徵。通過這樣做,不同形式的特徵最終被整合成一種統一的形式。

5.時空模組

通過在時間和空間上堆疊BEV特徵,可以構建特徵佇列。時間堆疊每固定時間推送和彈出一個特徵點,而空間堆疊每固定距離推送一個。在將這些堆疊中的特徵融合為一種形式後,可以獲得對遮擋具有魯棒性的時空BEV特徵[61,63]。聚合模組可以是3D卷積、RNN或transformer的形式。基於時間模組和車輛運動學,可以維護圍繞ego車輛的大型BEV特徵圖,並區域性更新特徵圖,就像特斯拉的空間RNN模組[6]中那樣。

6.預測頭

在BEV感知中,多頭設計被廣泛採用。由於BEV特徵聚集了來自所有感測器的資訊,所有3D檢測結果都從BEV特徵空間解碼。同時,PV結果(對於自動駕駛仍然有價值)也從一些設計中的相應PV特徵中解碼。預測結果可分為三類:(a)低水平結果與物理約束有關,如光流、深度等。(b) 實體級結果包括物件的概念,即車輛檢測、車道線檢測等。(c)結構級結果表示物件之間的關係,包括物件跟蹤、運動預測等。

經驗和trick

資料增強

用於2D識別任務的影象上的通用資料增強適用於基於相機的BEV感知任務。一般來說,可以將增強分為靜態增強和空間變換,靜態增強僅涉及顏色變化,基於顏色變化的增強是直接適用的。對於涉及空間變換的增強,除了相應變換的地面真相外,還需要攝像機引數的校準。最近的工作中採用的常見增強是顏色抖動、翻轉、多尺度調整大小、旋轉、裁剪和網格遮罩。在BEVFormer++中,採用了顏色抖動、翻轉、多尺度調整大小和網格掩碼。輸入影象按0.5和1.2之間的因子縮放,以0.5的比率翻轉;總面積的最大30%被正方形掩模隨機掩模。值得注意的是,在BEV感知中有兩種翻轉影象的方法。第一種方法是簡單地相應地翻轉影象、GT和相機引數。第二種方法還翻轉影象順序,以保持影象之間重疊區域的一致性,這類似於對稱翻轉整個3D空間。下圖為BEV下的一些trick和消融實驗:

圖片

在lidar分割任務中,與檢測任務不同,重資料增強可以應用於分割任務,包括隨機旋轉、縮放、翻轉和點平移。對於隨機旋轉,從[0,2π)範圍內選取一個角度,旋轉應用於x-y平面上的每個點。從[0.9,1.1]範圍中選擇比例因子,然後乘以點雲座標,沿X軸、Y軸或X軸和Y軸進行隨機翻轉。對於隨機平移,每個軸的偏移分別從均值為0和標準偏差為0.1的正態分佈中取樣。除了座標和反射率,還可以利用額外的資訊來提高模型效能。對於未標記的影象資料,通過將點雲標籤投影到相應的影象上並加密稀疏註釋,從註釋的點雲資料中獲得影象上的語義標籤。訓練影象模型以提供2D語義分割結果,然後,將預測的語義標籤繪製為點雲資料的一個熱向量,作為表示影象語義資訊的附加通道。此外,還可以使用時間資訊,因為自動駕駛中的資料集通常是按順序收集的,過去的連續幀與當前幀連線。

圖片

Test-time Augmentation

2D任務的常見測試時間增加,包括多尺度和翻轉測試,以提高3D情況下的精度。在BEVFormer++中,這一部分以使用標準資料增強(如多尺度和翻轉)的形式進行了簡單探索。多尺度增強的程度與訓練相同,從0.75到1.25不等。

點雲資料在推理過程中,使用了多個TTA,包括旋轉、縮放和翻轉。對於縮放,所有模型的縮放因子都設定為{0.90、0.95、1.00、1.05、1.10},因為縮放因子越大或越小對模型效能有害。翻轉與訓練階段相同,即沿X軸、Y軸以及X軸和Y軸。

後處理

雖然BEV檢測消除了多攝像機物件級融合的負擔,但也觀察到了可從進一步後處理中獲益的顯著事實,利用2D檢測結果對3D檢測結果進行重複移除是有益的,其中2D box和3D box是二分匹配的。

參考

[1] Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe.2022                                                     

往期回顧

史上最全 | BEV感知演算法綜述(基於影象/Lidar/多模態資料的3D檢測與分割任務)

自動駕駛之心】全棧技術交流群

自動駕駛之心是首個自動駕駛開發者社群,聚焦目標檢測、語義分割、全景分割、例項分割、關鍵點檢測、車道線、目標跟蹤、3D目標檢測、多感測器融合、SLAM、光流估計、軌跡預測、高精地圖、規劃控制、AI模型部署落地等方向;

加入我們: 自動駕駛之心技術交流群彙總!

自動駕駛之心【知識星球】想要了解更多自動駕駛感知(分類、檢測、分割、關鍵點、車道線、3D目標檢測、多感測器融合、目標跟蹤、光流估計、軌跡預測)、自動駕駛定位建圖(SLAM、高精地圖)、自動駕駛規劃控制、領域技術方案、AI模型部署落地實戰、行業動態、崗位釋出,歡迎掃描下方二維碼,加入自動駕駛之心知識星球(三天內無條件退款),日常分享論文+程式碼,這裡匯聚行業和學術界大佬,前沿技術方向盡在掌握中,期待交流!

「其他文章」