論文閲讀：RRPN：RADAR REGION PROPOSAL NETWORK FOR OBJECT DETECTION IN AUTONOMOUS_禿頭小蘇

theme: hydrogen

持續創作，加速成長！這是我參與「掘金日新計劃 · 6 月更文挑戰」的第7天，點擊查看活動詳情

🍊作者簡介：禿頭小蘇，致力於用最通俗的語言描述問題

🍊往期回顧：凸優化理論基礎1--仿射集凸優化理論基礎2——凸集和錐

🍊近期目標：擁有5000粉絲

🍊支持小蘇：點贊👍🏼、收藏⭐、留言📩

寫在前面

在上篇文章中，我們學習到了激光雷達和相機融合的論文。那麼這篇文章我將來介紹一下毫米波雷達和相機融合的方法。這裏我先給出三種傳感器（相機、激光雷達、毫米波雷達）的一些屬性特點，如下：

| | 攝像頭 | 毫米波雷達（radar） | 激光雷達(lidar) | | :---------------: | :----------------------------------: | :------------------------------------------------------: | :------------------------------------------------: | | 探測角度（°） | 35 | 10-80 | 15-360 | | 探測距離 | 150m | 200-300 | 200-300 | | 精度 | 一般 | 較高 | 很高 | | 優勢 | 成像清晰、能識別顏色、識別物體屬性 | 體積小、不受雨雪等惡劣天氣影響、全天候進行工作 | 探測精度高、視野大、不受光照限制、可測絕大部分物體 | | 劣勢 | 受光照影響大、受雨霧等惡劣天氣影響大 | 分辨率低、不能識別小物體、易受信號干擾、無法識別物體屬性 | 成像速度較慢、成本高、受霧霾等天氣影響較大 | | 主要功能 | 判斷前車距離、識別物體種類 | 距離檢測、自適應巡航 | 隧道環境內壁檢測、識別與跟蹤、定位導航、環境建模 |

radar可以在檢測到的物體上提供準確的距離和速率信息，但它們不適用於諸如物體分類之類的任務，因為它不能夠識別物體的屬性。另一方面，相機是用於對象分類的非常有效的傳感器，使radar和相機傳感器融合成為自動駕駛應用中非常有趣的話題。

RRPN網絡

這篇文章的核心就是這個RRPN網絡，主要由三個部分組成，即透視變換、錨點生成、距離補償。值得一提的是這個RRPN網絡是非常好理解的，但是你需要對fast-RCNN、faster-RCNN有一定的認識，論文中網絡的整體整體框架也是和fast-RCNN類似的。下面將來分別介紹這三個部分。

透視變換

生成 ROI 的第一步是將雷達檢測從車輛座標映射到攝像機視圖座標。雷達檢測以鳥瞰圖的形式報告，如下圖所示，物體的距離和方位角在車輛的座標系中測量。通過將這些檢測到的量映射到相機視圖座標，我們能夠將雷達檢測到的對象與相機獲得的圖像中看到的對象相關聯。

上文紅色字體的意思就是説我們可以將毫米波雷達的角度和距離數據投影到相機的三維座標中，為方便大家理解，我畫了從雷達座標到相機座標轉化的示意圖，如下：

這樣我們就得到了相機座標系下的座標，之後可以通過四系座標轉化將座標投影到像素座標系下。論文中還提到了相機的標定，這裏給出張氏標定法參考鏈接：http://blog.csdn.net/qq_47233366/article/details/124165936?spm=1001.2014.3001.5502🥝🥝🥝

錨點生成

從上一步我們已經將毫米波雷達檢測座標投影到了像素座標系下，這時我們就有了圖像中每個檢測到的物體的大致位置。這些映射到圖像上的點(以下稱為興趣點 (POI)) 提供了有關每個圖像中對象的有價值的信息，從而無需對圖像本身進行任何處理。有了這些信息，提出ROI的一種簡單方法就是引入一個以每個POI為中心的邊界框。但是這樣的處理會存在一些問題，一個問題是雷達檢測並不總是映射到每個圖像中檢測到的對象的中心。另一個問題是，雷達不提供關於檢測到的物體的大小的任何信息。為解決這些問題，論文中採取了不同大小和不同比例的候選框且候選框在POI不同位置的策略，如下圖所示：【其實這裏就基本和fastet-RCNN類似】

距離補償

每個物體與車輛的距離在確定其在圖像中的尺寸方面起着重要作用。通常，圖像中物體的大小與其與相機的距離成反比關係。雷達檢測具有每個檢測到的物體的距離信息，在此步驟中用於縮放所有生成的錨點。我們使用以下公式來確定要在錨點上使用的縮放因子:

其中$\alpha、 \beta$ 是學習到的參數，即通過最大化真實框和候選框IUO所對應的$\alpha、 \beta$，公式如下所示：

在這裏插入圖片描述

實驗結果

實驗中使用兩種不同的骨幹網絡，一個是ResNet-101(後文簡稱R101)，一個是ResNext-101(後文稱X101)，且設置了兩個數據集，如下：

從上圖可以看出，實驗RRPN網絡的檢測精度要比使用SS算法高，此外在實驗中，RRPN 能夠每秒處理70 到 90 張圖像，而選擇性搜索算法每張圖像需要 2-7 秒，也就是説使用RRPN網絡可以大大提高網絡的速度。

論文下載

下載地址：http://arxiv.org/pdf/1905.00526.pdf

如若文章對你有所幫助，那就🛴🛴🛴

咻咻咻咻~~duang\~~點個讚唄