來源 |自動駕駛干貨鋪、智車科技
知圈 | 進“底盤社群”請加微yanzhi-6,備注底盤
導(dǎo)讀:多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。
【資料圖】
從融合階段的角度,從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進行分類。此外,本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進行開放式討論。
多模態(tài)融合感知的背景
單模態(tài)數(shù)據(jù)的感知存在固有的缺陷,相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴峻挑戰(zhàn)。
此外,受限于機械結(jié)構(gòu),激光雷達在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。
因此LiDAR 和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。
數(shù)據(jù)格式
相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍色、綠色通道或其他手動設(shè)計的特征作為灰度通道。
然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此,許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進行 3D 對象檢測,例如深度估計、光流等。
激光雷達使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說,大多數(shù)激光雷達的原始數(shù)據(jù)都是四元數(shù),如(x, y, z, r),其中r代表每個點的反射率。
不同的紋理導(dǎo)致不同的反射率,然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉(zhuǎn)換為體素或 2D 投影,然后再將其饋送到下游模塊。
一些工作通過將 3D 空間離散化為 3D 體素,表示為:
其中每個 xi代表一個特征向量,如:
si代表體素長方體的質(zhì)心,而vi代表一些基于統(tǒng)計的局部信息。局部密度是由局部體素中 3D 點的數(shù)量定義的。局部偏移量通常定義為點坐標與局部體素質(zhì)心之間的偏移量。
基于Voxel 的點云表示,與上面提到的基于點的點云表示不同,它極大地減少了非結(jié)構(gòu)化點云的冗余。此外,利用3D稀疏卷積技術(shù),感知任務(wù)不僅實現(xiàn)了更快的訓(xùn)練速度,而且還實現(xiàn)了更高的準確度。
一些工作試圖將LiDAR 數(shù)據(jù)作為兩種常見類型投影到圖像空間中,包括相機平面圖(CPM)和鳥瞰圖(BEV)。通過將每個 3D 點作為 (x, y, z) 投影到相機坐標系中(u, v),可以獲得CPM。由于CPM與相機圖像的格式相同,因此可以通過使CPM作為附加通道來自然地融合它們。
然而,由于投影后激光雷達的分辨率較低,CPM中許多像素的特征被破壞了。BEV 映射提供了從上方看場景的高視圖。檢測和定位任務(wù)使用它有兩個原因。首先,與安裝在擋風(fēng)玻璃后面的攝像頭不同,大多數(shù)激光雷達位于車輛頂部,遮擋較少。
其次,所有對象都放置在BEV中的地平面上,模型可以生成預(yù)測而不會出現(xiàn)長度和寬度的失真。
融合方法
本節(jié)將回顧激光雷達相機數(shù)據(jù)的不同融合方法。從傳統(tǒng)分類學(xué)的角度來看,所有的多模態(tài)數(shù)據(jù)融合方法都可以很方便地分為三種范式,包括數(shù)據(jù)級融合(early-fusion)、特征級融合(deep-fusion)和對象級融合(late-fusion)。
數(shù)據(jù)級融合或早期融合方法通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)。特征級融合或深度融合方法關(guān)注于特征空間中混合跨模態(tài)數(shù)據(jù)。對象級融合方法結(jié)合模型在每個模態(tài)中的預(yù)測結(jié)果并做出最終決策。
數(shù)據(jù)級融合
原始數(shù)據(jù)通過空間對齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法的一個例子是圖4中的模型。將圖像分支中的語義特征和原始激光雷達點云融合在一起,從而在目標檢測任務(wù)中獲得更好的性能。
3D激光雷達點云轉(zhuǎn)換為 2D 圖像,并利用成熟的 CNN 技術(shù)融合圖像分支中的特征級表示以實現(xiàn)更好的性能。
特征級融合
特征級別融合使用特征提取器分別獲取激光雷達點云和相機圖像的嵌入表示,并通過一系列下游模塊融合兩種模態(tài)的特征。
深度融合有時會以級聯(lián)方式融合特征這兩者都利用了原始和高級語義信息。深度融合的一個例子可以是圖5中的模型。
對象級融合
后期融合,也稱為對象級融合,表示在每種模態(tài)中融合不同結(jié)果的方法。例如,一些后期融合方法利用來自LiDAR 點云分支和相機圖像分支的輸出,并根據(jù)兩種模態(tài)的結(jié)果進行最終預(yù)測。
請注意,兩個分支應(yīng)具有與最終結(jié)果相同的數(shù)據(jù)格式,但質(zhì)量、數(shù)量和精度各不相同。后期融合可以看作是一種利用多模態(tài)信息優(yōu)化最終proposal的集成方法。一個例子可以是圖6中的模型。
如上所述,利用后期融合來細化每個3D區(qū)域proposal的分數(shù),將圖像分支中的2Dproposal與LiDAR分支中的3D proposal相結(jié)合。此外,對于每個重疊區(qū)域,它利用了置信度得分、距離和 IoU 等統(tǒng)計特征。
不對稱融合
除了早期融合、深度融合和后期融合之外,一些方法對跨模態(tài)分支具有不同的特權(quán)。其他方法將兩個分支視為看似平等的狀態(tài),而不對稱融合至少有一個分支占主導(dǎo)地位,而其他分支則提供輔助信息來執(zhí)行最終任務(wù)。
后期融合的一個例子可以是圖7中的模型。特別是與后期融合相比,盡管它們可能使用提案具有相同的提取特征,但不對稱融合只有一個來自一個分支的提。
這種融合方法是合理的,因為在相機數(shù)據(jù)上使用卷積神經(jīng)網(wǎng)絡(luò)具有出色的性能,該網(wǎng)絡(luò)過濾了點云中語義上無用的點,提取原始點云中的截錐體以及相應(yīng)像素的RGB信息,以輸出 3D 邊界框的參數(shù)。
使用 LiDAR 主干以多視圖樣式引導(dǎo)2D主干,并實現(xiàn)更高的精度。利用來自LiDAR分支的3D區(qū)域提案并重新投影到2D,結(jié)合圖像特征,輸出最終的 3D 提案。
挑戰(zhàn)與機遇
近年來,用于自動駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進展,從更高級的特征表示到更復(fù)雜的深度學(xué)習(xí)模型。然而,還有一些懸而未決的問題。總結(jié)為以下幾個方面:
錯位和信息丟失
相機和 LiDAR 的內(nèi)在和外在差異很大。兩種模式中的數(shù)據(jù)都需要在新的坐標系下重新組織。傳統(tǒng)的早期和深度融合方法利用外部校準矩陣將所有LiDAR點直接投影到相應(yīng)的像素。
然而,這種逐像素對齊不夠準確。因此,我們可以看到,除了這種嚴格的對應(yīng)關(guān)系之外,一些利用周圍信息作為補充會產(chǎn)生更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過程中還存在一些其他的信息丟失。
通常,降維操作的投影不可避免地會導(dǎo)致大量信息丟失,例如將 3D LiDAR 點云映射到BEV 圖像中。因此,通過將兩種模態(tài)數(shù)據(jù)映射為另一種專為融合而設(shè)計的高維表示,未來的工作可以有效地利用原始數(shù)據(jù),同時減少信息丟失。
更合理的融合操作
當前的研究工作使用直觀的方法來融合跨模態(tài)數(shù)據(jù),例如連接和元素乘法。這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),因此難以彌合兩種模態(tài)之間的語義差距。
一些工作試圖使用更精細的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。在未來的研究中,雙線性映射等機制可以融合具有不同特征的特征。
多源信息權(quán)衡
現(xiàn)有的方法缺乏對來自多個維度和來源的信息的有效利用。他們中的大多數(shù)都專注于前視圖中的單幀多模態(tài)數(shù)據(jù)。結(jié)果,其他有意義的信息沒有得到充分利用,例如語義、空間和場景上下文信息。
在自動駕駛場景中,許多具有顯式語義信息的下游任務(wù)可能會極大地提高目標檢測任務(wù)的性能。例如,車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助,語義分割結(jié)果可以提高目標檢測性能。
未來的研究可以通過檢測車道、紅綠燈和標志等各種下游任務(wù),共同構(gòu)建完整的城市景觀場景語義理解框架,以輔助感知任務(wù)的執(zhí)行。
參考:
[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.