環(huán)球資訊:自動駕駛多模態(tài)融合感知詳解(研究現(xiàn)狀及挑戰(zhàn))

許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進行3D對象檢測,例如深度估計、光流等。將圖像分支中的語義特征和原始激光

來源 |自動駕駛干貨鋪、智車科技

知圈 | 進“底盤社群”請加微yanzhi-6,備注底盤

導(dǎo)讀:多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機在內(nèi)的解決對象檢測和語義分割任務(wù)。


【資料圖】

從融合階段的角度,從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進行分類。此外,本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機會進行開放式討論。

多模態(tài)融合感知的背景

單模態(tài)數(shù)據(jù)的感知存在固有的缺陷,相機數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中,物體可能會被遮擋,給物體檢測和語義分割帶來嚴峻挑戰(zhàn)。

此外,受限于機械結(jié)構(gòu),激光雷達在不同距離處具有不同的分辨率,并且容易受到大霧和大雨等極端天氣的影響。

因此LiDAR 和相機的互補性使得組合感知方面具有更好的性能。感知任務(wù)包括目標檢測、語義分割、深度補全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。

數(shù)據(jù)格式

相機提供了豐富的紋理信息的RGB圖像。具體來說,對于每個圖像像素為 (u, v),它有一個多通道特征向量 F(u,v) = {R, G, B, ...},通常包含相機捕獲的紅色、藍色、綠色通道或其他手動設(shè)計的特征作為灰度通道。

然而,由于深度信息有限,單目相機難以提取,因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此,許多方案使用雙目或立體相機系統(tǒng)通過空間和時間空間來利用附加信息進行 3D 對象檢測,例如深度估計、光流等。

激光雷達使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說,大多數(shù)激光雷達的原始數(shù)據(jù)都是四元數(shù),如(x, y, z, r),其中r代表每個點的反射率。

不同的紋理導(dǎo)致不同的反射率,然而,點的四元數(shù)表示存在冗余或速度缺陷。因此,許多研究人員嘗試將點云轉(zhuǎn)換為體素或 2D 投影,然后再將其饋送到下游模塊。

一些工作通過將 3D 空間離散化為 3D 體素,表示為:

其中每個 xi代表一個特征向量,如:

si代表體素長方體的質(zhì)心,而vi代表一些基于統(tǒng)計的局部信息。局部密度是由局部體素中 3D 點的數(shù)量定義的。局部偏移量通常定義為點坐標與局部體素質(zhì)心之間的偏移量。

基于Voxel 的點云表示,與上面提到的基于點的點云表示不同,它極大地減少了非結(jié)構(gòu)化點云的冗余。此外,利用3D稀疏卷積技術(shù),感知任務(wù)不僅實現(xiàn)了更快的訓(xùn)練速度,而且還實現(xiàn)了更高的準確度。

一些工作試圖將LiDAR 數(shù)據(jù)作為兩種常見類型投影到圖像空間中,包括相機平面圖(CPM)和鳥瞰圖(BEV)。通過將每個 3D 點作為 (x, y, z) 投影到相機坐標系中(u, v),可以獲得CPM。由于CPM與相機圖像的格式相同,因此可以通過使CPM作為附加通道來自然地融合它們。

然而,由于投影后激光雷達的分辨率較低,CPM中許多像素的特征被破壞了。BEV 映射提供了從上方看場景的高視圖。檢測和定位任務(wù)使用它有兩個原因。首先,與安裝在擋風(fēng)玻璃后面的攝像頭不同,大多數(shù)激光雷達位于車輛頂部,遮擋較少。

其次,所有對象都放置在BEV中的地平面上,模型可以生成預(yù)測而不會出現(xiàn)長度和寬度的失真。

融合方法

本節(jié)將回顧激光雷達相機數(shù)據(jù)的不同融合方法。從傳統(tǒng)分類學(xué)的角度來看,所有的多模態(tài)數(shù)據(jù)融合方法都可以很方便地分為三種范式,包括數(shù)據(jù)級融合(early-fusion)、特征級融合(deep-fusion)和對象級融合(late-fusion)。

數(shù)據(jù)級融合或早期融合方法通過空間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)特征級融合或深度融合方法關(guān)注于特征空間中混合跨模態(tài)數(shù)據(jù)。對象級融合方法結(jié)合模型在每個模態(tài)中的預(yù)測結(jié)果并做出最終決策。

數(shù)據(jù)級融合

原始數(shù)據(jù)通過空間對齊和投影直接融合每種模態(tài)數(shù)據(jù)的方法的一個例子是圖4中的模型。將圖像分支中的語義特征和原始激光雷達點云融合在一起,從而在目標檢測任務(wù)中獲得更好的性能。

3D激光雷達點云轉(zhuǎn)換為 2D 圖像,并利用成熟的 CNN 技術(shù)融合圖像分支中的特征級表示以實現(xiàn)更好的性能。

特征級融合

特征級別融合使用特征提取器分別獲取激光雷達點云和相機圖像的嵌入表示,并通過一系列下游模塊融合兩種模態(tài)的特征。

深度融合有時會以級聯(lián)方式融合特征這兩者都利用了原始和高級語義信息。深度融合的一個例子可以是圖5中的模型。

對象級融合

后期融合,也稱為對象級融合,表示在每種模態(tài)中融合不同結(jié)果的方法。例如,一些后期融合方法利用來自LiDAR 點云分支和相機圖像分支的輸出,并根據(jù)兩種模態(tài)的結(jié)果進行最終預(yù)測。

請注意,兩個分支應(yīng)具有與最終結(jié)果相同的數(shù)據(jù)格式,但質(zhì)量、數(shù)量和精度各不相同。后期融合可以看作是一種利用多模態(tài)信息優(yōu)化最終proposal的集成方法。一個例子可以是圖6中的模型。

如上所述,利用后期融合來細化每個3D區(qū)域proposal的分數(shù),將圖像分支中的2Dproposal與LiDAR分支中的3D proposal相結(jié)合。此外,對于每個重疊區(qū)域,它利用了置信度得分、距離和 IoU 等統(tǒng)計特征。

不對稱融合

除了早期融合、深度融合和后期融合之外,一些方法對跨模態(tài)分支具有不同的特權(quán)。其他方法將兩個分支視為看似平等的狀態(tài),而不對稱融合至少有一個分支占主導(dǎo)地位,而其他分支則提供輔助信息來執(zhí)行最終任務(wù)。

后期融合的一個例子可以是圖7中的模型。特別是與后期融合相比,盡管它們可能使用提案具有相同的提取特征,但不對稱融合只有一個來自一個分支的提。

這種融合方法是合理的,因為在相機數(shù)據(jù)上使用卷積神經(jīng)網(wǎng)絡(luò)具有出色的性能,該網(wǎng)絡(luò)過濾了點云中語義上無用的點,提取原始點云中的截錐體以及相應(yīng)像素的RGB信息,以輸出 3D 邊界框的參數(shù)。

使用 LiDAR 主干以多視圖樣式引導(dǎo)2D主干,并實現(xiàn)更高的精度。利用來自LiDAR分支的3D區(qū)域提案并重新投影到2D,結(jié)合圖像特征,輸出最終的 3D 提案。

挑戰(zhàn)與機遇

近年來,用于自動駕駛感知任務(wù)的多模態(tài)融合方法取得了快速進展,從更高級的特征表示到更復(fù)雜的深度學(xué)習(xí)模型。然而,還有一些懸而未決的問題。總結(jié)為以下幾個方面:

錯位和信息丟失

相機和 LiDAR 的內(nèi)在和外在差異很大。兩種模式中的數(shù)據(jù)都需要在新的坐標系下重新組織。傳統(tǒng)的早期和深度融合方法利用外部校準矩陣將所有LiDAR點直接投影到相應(yīng)的像素。

然而,這種逐像素對齊不夠準確。因此,我們可以看到,除了這種嚴格的對應(yīng)關(guān)系之外,一些利用周圍信息作為補充會產(chǎn)生更好的性能。此外,在輸入和特征空間的轉(zhuǎn)換過程中還存在一些其他的信息丟失。

通常,降維操作的投影不可避免地會導(dǎo)致大量信息丟失,例如將 3D LiDAR 點云映射到BEV 圖像中。因此,通過將兩種模態(tài)數(shù)據(jù)映射為另一種專為融合而設(shè)計的高維表示,未來的工作可以有效地利用原始數(shù)據(jù),同時減少信息丟失。

更合理的融合操作

當前的研究工作使用直觀的方法來融合跨模態(tài)數(shù)據(jù),例如連接和元素乘法。這些簡單的操作可能無法融合分布差異較大的數(shù)據(jù),因此難以彌合兩種模態(tài)之間的語義差距。

一些工作試圖使用更精細的級聯(lián)結(jié)構(gòu)來融合數(shù)據(jù)并提高性能。在未來的研究中,雙線性映射等機制可以融合具有不同特征的特征。

多源信息權(quán)衡

現(xiàn)有的方法缺乏對來自多個維度和來源的信息的有效利用。他們中的大多數(shù)都專注于前視圖中的單幀多模態(tài)數(shù)據(jù)。結(jié)果,其他有意義的信息沒有得到充分利用,例如語義、空間和場景上下文信息。

在自動駕駛場景中,許多具有顯式語義信息的下游任務(wù)可能會極大地提高目標檢測任務(wù)的性能。例如,車道檢測可以直觀地為檢測車道之間的車輛提供額外幫助,語義分割結(jié)果可以提高目標檢測性能。

未來的研究可以通過檢測車道、紅綠燈和標志等各種下游任務(wù),共同構(gòu)建完整的城市景觀場景語義理解框架,以輔助感知任務(wù)的執(zhí)行。

參考:

[1] Huang, K., Shi, B., Li, X., Li, X., Huang, S., & Li, Y. (2022). Multi-modal Sensor Fusion for Auto Driving Perception: A Survey. arXiv preprint arXiv:2202.02703.

標簽: 激光雷達 信息丟失 目標檢測

相關(guān)閱讀

六代中醫(yī)傳人張喜海:守正中醫(yī)創(chuàng)新治骨...

張醫(yī)生,我們是專門過來找您看病的張院長,你看看我的病還能治嗎?治骨病,找張喜海醫(yī)生 紛雜的診室...

2019-12-17 更新

慶70華誕 迎民族盛會——新階層 新?lián)?..

拼搏砥礪七十載,大展宏圖喜露顏。7月26日,由中華網(wǎng)河南頻道主辦,河南省委統(tǒng)戰(zhàn)部新的社會階層人士統(tǒng)戰(zhàn)工作處...

2019-07-28 更新

河南首家無人機表演編隊亮相 夜空中上...

【導(dǎo)語】河南地圖、少林功夫、司母戊鼎、甲骨文、盧舍那大佛、鯨魚、金字塔、雪花……200架無人機編隊在夜空中...

2019-07-15 更新

天天觀點:外表的反義詞語有哪些(外表...

大家好,小琪來為大家解答以上的問題。外表的反義詞語有哪些,外表的反義詞這個很多人還不知道,現(xiàn)在讓我們一起...

2022-11-21 更新

Dorewin采集卡(dorewin)

大家好,小琪來為大家解答以上的問題。Dorewin采集卡,dorewin這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、...

2022-11-21 更新

焦點精選!罘怎么讀(畀怎么讀)

大家好,小琪來為大家解答以上的問題。罘怎么讀,畀怎么讀這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、畀拼...

2022-11-21 更新

侵略的拼音怎么寫(侵略的拼音)

大家好,小琪來為大家解答以上的問題。侵略的拼音怎么寫,侵略的拼音這個很多人還不知道,現(xiàn)在讓我們一起來看看...

2022-11-21 更新

天天快消息!謝道韞形容雪的詩句(形容...

大家好,小琪來為大家解答以上的問題。謝道韞形容雪的詩句,形容雪的詩句這個很多人還不知道,現(xiàn)在讓我們一起來...

2022-11-21 更新

今日視點:Commerz Real收購了達姆施塔...

CommerzRealCapitalManagement代表其CommerzRealInstitutional智能生活基金購買了達姆施塔特的微型公寓計劃,這套占地9,000平

2022-11-21 更新

肥的組詞(吹的組詞)

大家好,小琪來為大家解答以上的問題。肥的組詞,吹的組詞這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、一、...

2022-11-21 更新

環(huán)球快訊:反射弧模式圖簡化(反射弧模式...

大家好,小琪來為大家解答以上的問題。反射弧模式圖簡化,反射弧模式圖這個很多人還不知道,現(xiàn)在讓我們一起來看...

2022-11-21 更新

民樂經(jīng)典揭幕“西岸有戲”

天津北方網(wǎng)訊:昨日,2022西岸藝術(shù)節(jié)暨“西岸有戲”社區(qū)公益演出季在天津大禮堂正式啟動。作為開幕演出,天津...

2022-11-21 更新

要聞:廣告詞賞析(廣告詞賞析)

大家好,小琪來為大家解答以上的問題。廣告詞賞析,廣告詞賞析這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、...

2022-11-21 更新

中撲網(wǎng)排名國內(nèi)排名(中撲網(wǎng))

大家好,小琪來為大家解答以上的問題。中撲網(wǎng)排名國內(nèi)排名,中撲網(wǎng)這個很多人還不知道,現(xiàn)在讓我們一起來看看吧...

2022-11-21 更新

快資訊:霧霾將散!還有這些好消息,事...

昨天早晨一睜開眼  窗外的霧霾  好像加了一層模糊濾鏡  別急!  根據(jù)目前的預(yù)報來看  今天早上冷空...

2022-11-21 更新

今日看點:全球首款載人級兩座智能分體...

摩根士丹利在相關(guān)研究報告中稱,到2030年,飛行汽車行業(yè)將創(chuàng)造3000億美元市場規(guī)模,最初會轉(zhuǎn)化部分地面交通、...

2022-11-21 更新

資訊:大眾計劃推遲Trinity項目至2030年...

據(jù)外媒報道稱,大眾集團首席執(zhí)行官奧博穆(OliverBlume)計劃將關(guān)鍵的Trinity旗艦電動汽車項目從2026年推遲至2...

2022-11-21 更新

陶瓷膜望成為燃料電池汽車降本量產(chǎn)關(guān)鍵...

據(jù)外媒報道,在大力推進電動化轉(zhuǎn)型的大眾汽車集團,也在研發(fā)氫燃料電池車車型。日前,大眾與德國公司Kraftwerk...

2022-11-21 更新

狂野賽道:Manhart TR 900

近期Manhart展示了其最新升級產(chǎn)品TR900。該車基于目前版本的的保時捷911GT2RS,本次升級由內(nèi)到外是全方位的。...

2022-11-21 更新

全球快看:落銀城建筑攻略(落銀城好玩嗎)

大家好,小琪來為大家解答以上的問題。落銀城建筑攻略,落銀城好玩嗎這個很多人還不知道,現(xiàn)在讓我們一起來看看...

2022-11-21 更新

二手車交易流程表(二手車交易流程)

大家好,小琪來為大家解答以上的問題。二手車交易流程表,二手車交易流程這個很多人還不知道,現(xiàn)在讓我們一起來...

2022-11-21 更新

焦點播報:怎么日最準確(怎么日b)

大家好,小琪來為大家解答以上的問題。怎么日最準確,怎么日b這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、...

2022-11-21 更新

全球通訊!天劫醫(yī)生txt

大家好,小琪來為大家解答以上的問題。天劫醫(yī)生txt這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、鏈接:?密碼...

2022-11-21 更新

心愛的姑娘就要嫁人了歌詞(心愛的姑娘...

大家好,小琪來為大家解答以上的問題。心愛的姑娘就要嫁人了歌詞,心愛的姑娘就要嫁人了這個很多人還不知道,現(xiàn)...

2022-11-21 更新

全球視訊!外一篇(外一)

大家好,小琪來為大家解答以上的問題。外一篇,外一這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、回復(fù):原來...

2022-11-21 更新

熱消息:哈弗成為2022年APEC會議物流及...

在即將迎來尾聲的2022年,長城汽車及哈弗品牌的全球化進程快速推進,尤其是在泰國這一極具代表性的市場中,截...

2022-11-21 更新

今亮點!每天車聞:比亞迪第300萬輛新能...

汽車事件一:比亞迪第300萬輛新能源汽車下線11月16日,比亞迪第300萬輛新能源汽車下線發(fā)布在比亞迪全球總部舉...

2022-11-21 更新

環(huán)球熱頭條丨直通車“十分法”是什么含...

0分詞,對車手來講有多重要呢??添加10個左右的關(guān)鍵詞,這和高價上10分的設(shè)置方法一樣,大類目用二級詞或三級...

2022-11-21 更新

【全球快播報】車聞快報 | 第十一代本...

近日,2022洛杉磯車展正式開幕。本屆洛杉磯車展上,全新一代(第十一代)本田雅閣(以下簡稱為“全新雅閣”)...

2022-11-21 更新

世界最新:丁醇化學(xué)式(丁醇)

大家好,小琪來為大家解答以上的問題。丁醇化學(xué)式,丁醇這個很多人還不知道,現(xiàn)在讓我們一起來看看吧!1、丁醇一...

2022-11-20 更新

熱門:那個播放器看電影好(看電影用什...

大家好,小琪來為大家解答以上的問題。那個播放器看電影好,看電影用什么播放器好這個很多人還不知道,現(xiàn)在讓我...

2022-11-20 更新

【環(huán)球報資訊】跑出“嘉”速度|吸引20家...

保時捷亞太賽車貿(mào)易(上海)有限公司董事總經(jīng)理季博安表示,“通過綜保區(qū)保稅存儲、保稅展示等功能,賽車愛好...

2022-11-20 更新

世界熱文:動力電池裝車不足產(chǎn)量一半,...

看到這相信有不少讀者立馬會有疑問,產(chǎn)量不是達到了62 8GWh嗎,怎么裝車量才30 5GWh?通過這裝車量與產(chǎn)量之...

2022-11-20 更新

新聞頻道

社會

財經(jīng)頻道