自動駕駛中雷達感知:時域關係的充分利用

語言: CN / TW / HK

arXiv上2022年4月上傳的論文“Exploiting Temporal Relations on Radar Perception for Autonomous Driving“,基本是Brandeis大學的學生在MERL的實習生工作。

該文考慮雷達感測器在自動駕駛中的目標識別問題。與鐳射雷達感測器相比,雷達在全天候條件下對自動駕駛的感知具成本高效和具備魯棒性。然而,雷達訊號在識別周圍目標時,角解析度和精度較低。為了提高車載雷達的能力,這項工作在連續自車為中心的BEV雷達影象幀中充分利用時間資訊進行雷達目標識別。作者利用目標存在和屬性(大小、方向等)的一致性,提出一個 時域關係層(temporal relational layer) 對連續雷達影象中目標之間的關係明確地建模。在目標檢測和多目標跟蹤方面,該方法與其他幾種基準方法相比具有優越性。

車載雷達主要使用FMCW檢測目標,並在多個物理域上生成點雲。其原理如圖所示:

雷達通過M個發射天線之一發射一組FMCW脈衝訊號即

具有徑向速度vt和遠場空間角(即方位角、仰角或同時存在)距離在R0範圍內的一個目標,在N個接收器射頻鏈(包括低噪聲放大器LNA、本地振盪器LO和模數轉換器ADC)的每一個,所接收到的FMCW訊號做振幅衰減和相位調製。

基帶訊號處理模組(包括距離、多普勒和空域的快速傅立葉變換FFT)捕獲來自目標的調製訊號,生成一個多維譜。頻譜與自適應閾值進行比較,即恆定虛警率(CFAR)檢測,可以在距離、多普勒、方位和仰角域生成雷達點雲。

如圖是所提出的具有時序性雷達目標識別框架:從左到右,該方法取兩個連續的雷達幀,並從每一幀提取時域特徵;然後,選擇可能是潛在目標的特徵,並學習它們之間的時域一致性。最後,對更新後的訓練特徵進行一些迴歸分析。

通過主幹神經網路,輸入兩幀得到特徵表示

為了在特徵表示中聯合使用高階語義和低階細化細節,神經網路中不同尺度特徵之間建立跳連線。具體地說,對於一個跳連線,在一個深層上取樣池化特徵,通過雙線性插值將其大小與以前的淺層特徵對齊。一系列操作,包括卷積、非線性啟用和批量標準化(BN),隨後應用於該上取樣特徵。接下來,沿通道維度將上取樣特徵與淺層特徵連線。三個跳連線被插入到網路中,推動特徵在四個不同層接納語義。

如圖是在主幹網插入的幾個跳連線,收集不同尺度特徵進行預測。所選擇用於時域關係建模的特徵附上位置編碼,揭示目標的位置。

設計一個 時域關係層 模擬連續幀中潛在目標之間的相關性和一致性。該時域關係層從兩個幀接收多個特徵向量,每個向量表示雷達影象中的潛在目標。

應用一個濾波模組,挑選出前K個潛在目標特徵,其中Zc中的潛在目標座標為:

類似地,可以得到Zp中的潛在目標座標Pp。這樣所選特徵組成的矩陣為

時域關係層的輸入即記作

在Hc+p傳遞到時域關係層之前,在特徵向量中補上位置編碼。由於CNN具有平移不變性,卷積神經網路在輸出特徵表示中不包含絕對位置資訊。然而,位置在目標時域關係中是至關重要的,因為在兩個連續幀中處於特定空域距離的目標更有可能關聯,並且共享相似目標的屬性。同一目標之間的空域距離取決於幀率和車輛運動,可以通過資料驅動的方法進行學習。

時域關係層的輸出特徵為:採用Transformer結構

掩碼矩陣定義為:

自注意機制背後的邏輯是,由於一個目標可以移出範圍,所以在連續幀中不能始終保證同一目標同時出現,因此,當一個目標只在一幀中丟失時,自注意是可取的。值得注意的是,位置編碼只附加給key和query,而不是value,因此輸出特性不涉及位置。其他技術細節遵循Transformer的設計,這裡省略了詳細描述。

關係建模是由多個具有相同設計的時域關係層構成的。最後,將更新後的特徵Hc和Hp從Hc+p中分離出來,並在Pc和Pp的相應空間座標中將特徵向量重新填充到Zc和Zp。

在模型訓練時,從熱圖中選取目標的中心座標,並通過迴歸從特徵表示中學習其屬性(即寬度、長度、方向和中心座標偏移)。

將2D徑向基函式(RBF)核置於每個真值目標的中心,生成真值熱圖,而RBF核的引數σ與目標的寬度和長度成比例。考慮到雷達影象中目標的稀疏性,用focal loss來平衡真值中心和背景的迴歸,並驅動預測的熱圖來近似真值熱圖,即

注:在模型推理中,在熱圖上設定一個閾值,以區分目標中心和背景。應用NMS,可避免過多邊框出現。

目標寬度和長度的迴歸損失項為:

其中L1平滑損失為

目標姿態的迴歸損失為

主幹網路中下采樣會造成目標中心座標偏離。這裡記作

其迴歸損失為

這樣總損失為

每個訓練步驟,都會計算損失L,並同時對當前幀和前一幀進行反向運算。在當前幀中的目標,接收過去的資訊以進行識別。另一方面,從前一個幀角度來看,目標會利用來自未來最近幀的時間資訊。因此,可以將優化視為對兩個連續幀的雙向後向-前向訓練。目前,沒有將當前的框架擴充套件到多個幀,因為一箇中間幀沒有時域特徵提取所需要的輸入影象適當序貫次序(既不是從過去到未來,也不是從未來到過去),並且會降低訓練效率。

對於多目標跟蹤,在中心特徵向量新增一個迴歸頭,預測當前幀和前一幀具有相同跟蹤ID的目標中心之間的2-D運動偏移。簡單地,用歐氏距離來實現跟蹤解碼中的關聯。

如下是MOT的解碼演算法虛擬碼:

資料集Radiate,包括了在惡劣天氣(包括太陽、夜晚、雨、霧和雪)下錄製的影片序列。駕駛場景從高速公路到市區,各不相同。資料格式為從點雲生成的雷達影象,其中畫素值表示雷達訊號反射的強度。Radiate採用機械掃描方式的Navtech CTS350-X雷達,提供360度4赫茲高解析度距離-方位(range-azimuth)影象。目前,雷達無法提供多普勒或速度資訊。整個資料集共有61個序列,劃分為三部分:好天氣下訓練(31個序列,22383幀,僅在好天氣,晴天或陰天),好天氣和壞天氣(12個序列,9749幀,好天氣和壞天氣)條件下訓練以及測試(18個序列,11305幀,各種天氣條件)。分別在前兩個訓練集上訓練模型,並在測試集上進行評估。

實驗結果如下: