來源 | 極市平臺公眾號、交通邦
知圈 | 進“計算平臺群”請加微yanzhi-6,備注計算
(資料圖片)
導讀
當前自動駕駛的策略研究還停留在具體場景執(zhí)行具體策略,清華大學的研究人員在交通領域的頂會發(fā)表了一篇全面的綜述,從更高級的角度分析自動駕駛策略。
當自動駕駛遇見會車,應該搶先通過,還是等待讓行?
自動駕駛的策略一直是該領域的核心問題,即在交通沖突區(qū)域內(nèi),自動駕駛汽車應該如何與其他交通參與者進行合理且高效的互動。
過于激進或過于保守的策略都會對通行效率產(chǎn)生影響,甚至對乘坐者的生命安全造成威脅。
之前對于自動駕駛策略的研究主要集中在低級詳細的駕駛行為或特定的交通情況上,也就是「具體問題具體分析」,導致工程代碼里可能有成千上萬個if-else,而目前也缺乏對高級駕駛策略研究。
盡管研究人員對駕駛策略表現(xiàn)出越來越多的興趣,但仍沒有關于如何主動實施安全駕駛的全面答案。
最近,由清華大學、中科院自動化所和Intel中國研究院聯(lián)合研究的成果,在交通安全領域國際頂級期刊Accident Analysis and Prevention(交通領域SSCI期刊排名第一,JCR Q1)舉辦的2021年年度研討會上進行了公開展示和口頭匯報,并獲得了該期刊年度最佳論文獎。
作者在分析了幾種代表性駕駛策略之后,提出了三個對衡量駕駛策略很重要的特征維度:首選目標(preferred objective),風險欲望(risk appetite)和協(xié)作方式(collaborative manner)。
根據(jù)這三個特征維度,研究人員將自動駕駛汽車的現(xiàn)有駕駛策略分為四種:防御性駕駛策略,競爭性駕駛策略,談判的駕駛策略和合作駕駛策略,并對這四種策略進行了比較,并找出了改善高級駕駛策略設計的可能方向。
作者認為,在面對將長期存在的混合交通流(自動駕駛汽車與傳統(tǒng)汽車混行)時,應該主動引入路權協(xié)商機制以調(diào)和個體意圖之間的矛盾。
論文的通訊作者為李志恒博士,目前是清華大學深圳研究生院副教授、博導。于2009年獲清華大學自動化系控制科學與工程學科工學博士學位。主要研究方向為:智能交通系統(tǒng)、交通信號控制系統(tǒng)、交通管理規(guī)劃、智能公共交通系統(tǒng)、智能交通大數(shù)據(jù)研究等。主持和參與國家級項目10余項。
自動駕駛的未來
近年來,自動駕駛技術被寄予厚望,人們普遍相信其有潛力重塑整個道路運輸領域并解決眾多實際交通問題,如道路可達性、交通效率、便利性,尤其是安全性。
然而,越來越多的研究者逐漸發(fā)現(xiàn),教會自動駕駛汽車「安全行駛」絕非易事。以左轉為例,2010 年美國交通部的一項研究對超過200萬起事故調(diào)查后發(fā)現(xiàn),左轉發(fā)生的事故幾率是右轉的二十倍;自動駕駛領域巨頭Waymo的行為團隊負責人、軟件工程師Nathaniel Fairfield認為:無保護的左轉是自動駕駛中最棘手的事情之一;MIT機械工程系John Leonard教授也曾坦言:自動駕駛每天都有很多挑戰(zhàn),左轉彎幾乎在問題列表的最上端。
而該項工作研究團隊認為,引發(fā)左轉碰撞這類安全問題的本質(zhì)原因是不同車輛在互動時采用的宏觀策略存在差異。不同于聚焦具體場景或具體駕駛行為的微觀策略,宏觀策略是對決策過程典型要素的抽象,是由自動駕駛策略的硬件基礎與決策機制共同決定的。
因此,這項工作主要討論了自動駕駛汽車在與其他交通參與者互動的過程中,應該遵循何種宏觀策略以避免由誤判引起的碰撞風險,從而有序通過交通沖突區(qū)域。
在這項工作中,研究團隊在回顧現(xiàn)有研究后,提出了兩個用來衡量宏觀駕駛策略的主要維度:
協(xié)作意愿,即駕駛主體是否愿意為換取整體利益而讓渡一部分個體利益;
風險偏好,即駕駛主體對駕駛策略所帶來的潛在風險的態(tài)度。
根據(jù)整體利益(環(huán)境交通效率等)和個體利益(單車通行速度)之間不同的側重,現(xiàn)有典型駕駛策略可以分為「對抗駕駛」和「合作駕駛」兩類。
其中,根據(jù)風險偏好的不同,對抗駕駛策略進一步分為了偏好安全指標的風險厭惡型「防御性駕駛策略」和偏好速度指標的風險中性「競爭性駕駛策略」。
而合作性駕駛策略又可以分為不依賴主動通信設備的“協(xié)商性駕駛策略”和依賴主動通信設備(車聯(lián)網(wǎng)、V2V等)的「協(xié)同性駕駛策略」(圖1)。
圖1:四類典型宏觀駕駛策略
在這項工作中,研究團隊針對以上四種典型駕駛策略的運作機理,核心任務,交互邏輯,決策機制和硬件基礎進行了綜述分析。
具體來說,防御性駕駛策略被定義為:對其它車輛采取非理性假設(即認為非理性行為發(fā)生概率高),規(guī)定自動駕駛汽車以保證自身安全為核心目的而獨立決策的一種駕駛策略。
競爭性駕駛策略被定義為:對其它車輛采取理性假設(即認為非理性行為發(fā)生概率低),規(guī)定自動駕駛汽車以提高自身效率為核心目的而獨立決策的一種駕駛策略。
協(xié)商性駕駛策略被定義為:基于對傳統(tǒng)駕駛行為的理解,自動駕駛汽車與其他車輛進行合理協(xié)商、共同決策,以換取效率和安全兼顧的一種駕駛策略。
協(xié)同性駕駛策略被定義為:在車聯(lián)網(wǎng)技術的支持下,自動駕駛汽車與其他車輛協(xié)同、接受統(tǒng)一調(diào)度指令以達到全局最優(yōu)的一種駕駛策略。
緊接著,團隊進一步對這四種策略的利弊與特點進行了討論。
隨著本世紀自動駕駛技術的發(fā)展,防御駕駛策略最早被提出,因為這種駕駛策略與人類駕駛規(guī)則之間存在著諸多相似之處,核心目標都是消解或者減少交通不確定性所帶來的潛在風險。
然而,防御性駕駛的最大弊病在于:自動駕駛汽車為了防止小概率交通事故的發(fā)生可能會過度冗余保守,使得交通效率下降。
比如,在Intel Mobileye團隊提出的責任敏感性駕駛模型(Responsibility Sensitive Safety,RSS)原始版本[2]中,自動駕駛汽車被要求保持足夠遠的安全距離以應對前車隨時可能的急剎行為(圖2)。
而團隊進一步研究發(fā)現(xiàn),當將前車的意圖納入決策考量后,自動駕駛汽車可以在保證安全要求的前提下將跟隨距離縮短三倍以上。這表明在引入交互后,改良后的防御駕駛同樣可以保證一定的交通效率。
相關研究成果也已經(jīng)得到公開發(fā)表并被Mobileye采納[3]。
圖2:Mobileye 發(fā)布的RSS原始版本中對安全距離的規(guī)定[2]
隨著研究的深入,防御駕駛策略的各種弊端逐漸顯現(xiàn),如缺乏長期規(guī)劃、影響交通效率等。
為了解決這些問題,「學習」的概念逐漸被引入自動駕駛領域,人們試圖教會機器像人類一樣,基于經(jīng)驗在預期收益和潛在風險之間做出決策。
基于這一想法,以MIT強化學習模型Deep Traffic(圖3)為代表的競爭駕駛策略應運而生[4]。
在這種策略的引導下,自動駕駛汽車將道路交通視為「非合作動態(tài)博弈」過程,并始終在尋找提高駕駛效益的可能性。
然而,這類駕駛策略往往難以繞開兩個問題:
1. 仿真所帶來的擬真性問題,即「reality gap」。這類駕駛決策算法往往需要在仿真系統(tǒng)中進行,而算法的訓練過程恰恰十分依賴于環(huán)境反饋,那么如何保證仿真系統(tǒng)中的互動過程足夠逼真,是研究者必須回答的問題;
2. 理性假設所帶來的潛在風險增加。經(jīng)研究發(fā)現(xiàn),隨著訓練的進行,由于仿真環(huán)境中的理性個體遠多于非理性個體,自動駕駛汽車可能會從一次次冒險行為中「嘗到甜頭」,而越來越趨向于采取激進的駕駛行為 [5]。這種理性假設在實際道路上可能會引發(fā)交通阻塞后果。
圖3:MIT的Deep Traffic駕駛決策模型 [4](圖片來源:https://selfdrivingcars.mit.edu/deeptraffic)
因此,協(xié)商駕駛的概念被提出,其主張將路權協(xié)商機制引入以調(diào)和個體意圖之間的矛盾。研究團隊將自動駕駛汽車與其他車輛協(xié)商路權時需要遵循的原則總結為三點(圖4)[6]:
要保守處理感知的局限性;
要將車與車之間的交互(包括隱性通信與主動通信)納入決策考量;
要平衡交通安全與交通效率,即考慮策略的敏捷性。
基于此,研究團隊又相繼發(fā)表多篇論文論述了如何在各類典型交通場景下基于路權協(xié)商進行有效駕駛決策[7]。
圖4:安全駕駛所強調(diào)的三個核心原則[6]
然而,協(xié)商駕駛受限于通信信息量,仍未達到對道路運力的最大利用。隨著近年來主動通信技術的成熟和分布式協(xié)同決策模型的發(fā)展,基于車聯(lián)網(wǎng)的全局協(xié)同駕駛成為可能。
協(xié)同駕駛的基本假設是,所有道路車輛都將自身狀態(tài)信息匯報給中央控制系統(tǒng),并完全遵守系統(tǒng)統(tǒng)一分配的機動方案進行運動控制。
在此假設下,自動駕駛汽車不再需要進行復雜的軌跡預測和風險評估,可以通過優(yōu)化或搜索的方法,以最小的計算成本換取道路資源的最大限度利用(圖5)[8,9]。
圖5:不同策略下20輛車通過同一路口時延對比[9]
Enumeration—基于枚舉的協(xié)同駕駛全局最優(yōu)解(時延315.06s);
MCTS—基于搜索的協(xié)同駕駛近似最優(yōu)解(時延316.18s);
FIFO—基于規(guī)則的協(xié)商駕駛一般解(時延382.54s)
上述協(xié)同駕駛的實現(xiàn)有三個前提條件:在車端,必須完成自動駕駛替代并配備主動通信設備;在路端,必須布設密集的智能基礎設施作為感知與通信節(jié)點;在云端,必須架設低時延、高并發(fā)的通信網(wǎng)絡與控制中心。
而這也意味著協(xié)同駕駛注定無法在短期內(nèi)落地,我們必須認真考慮在未來較長的一段時間內(nèi),如何面對自動駕駛汽車與人類駕駛汽車混行的現(xiàn)實。
一個讓人擔心的問題是,不同的自動駕駛汽車制造商有著自己的駕駛策略。這有可能會導致一些自動駕駛汽車根據(jù)自身的策略,誤判其它車輛的策略,從而導致事故的發(fā)生。因此,研究者呼吁在駕駛策略層面達成共識,更好的實現(xiàn)和諧駕駛,提高駕駛安全。
隨著機器智能水平的逐漸逼近人類,機器如何在更廣泛的范圍內(nèi)與人類和諧相處將會成為本世紀最重要的科學問題之一。
而在我國發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中,提出了面向2030年我國新一代人工智能發(fā)展的指導思想、戰(zhàn)略目標和重點任務。其中,人機協(xié)同的人工智能是一大重點研究方向。
自動駕駛作為人工智能發(fā)展中的代表性領域,在Level 2-Level 5級的人機共駕,Level-4-Level 5級的多種車輛協(xié)同中,都涉及人機協(xié)同的人工智能研究問題,這些問題的解決涉及到行為建模、人機交互、心理學等多個學科交叉,有必要得到更多的關注和重視。
參考資料:
[2] S. Shalev-Shwartz, S. Shammah, A. Shashua, On a formal model of safe and scalable self-driving cars, https://arxiv.org/abs/1708.06374
[3] L. Li, X. Peng, F.-Y. Wang, D. Cao, L. Li, "A situation-aware collision avoidance strategy for car-following," IEEE/CAA Journal of Automatica Sinica, vol. 5, no. 5, pp. 1012-1016, 2018.
[4] L. Fridman, J. Terwilliger, B. Jenik, "DeepTraffic: crowdsourced hyperparameter tuning of deep reinforcement learning systems for multi-agent dense traffic navigation," Neural Information Processing Systems (NIPS 2018) Deep Reinforcement Learning Workshop 2018.
[7] C. Zhao, Z. Li, L. Li, X. Wang, F.-Y. Wang, X. Wu, A negotiation-based right-of-way assignment strategy to ensure traffic safety and efficiency in lane change, IET Intelligent Transportation Systems, vol. 15, no. 11, pp. 1345-1358, 2021.