清華校友,最新自動(dòng)駕駛研究成果再登 Nature。
去年,Nature 正刊曾罕見地將封面給了自動(dòng)駕駛研究“仿真效率提升 2000 倍”—— 同樣是這個(gè)團(tuán)隊(duì)的成果,成為自動(dòng)駕駛?cè)?nèi)一時(shí)熱議的重大進(jìn)展。
這次新研究發(fā)表在 Nature 子刊《Nature Communications》,關(guān)注更加底層、更加核心的 AI 技術(shù)難題:稀疏度災(zāi)難。
研究了個(gè)啥?
有點(diǎn)“神乎其神”,稀疏度是個(gè)啥東西,咋就成了自動(dòng)駕駛的災(zāi)難?
嚴(yán)謹(jǐn)?shù)亩x是這樣:
高維變量空間中安全關(guān)鍵事件的稀疏度。
通俗的說就是,拿來喂給 AI 司機(jī)的訓(xùn)練數(shù)據(jù)中,真正有用的不多。
舉個(gè)例子,現(xiàn)在車企、自動(dòng)駕駛公司動(dòng)輒說自己有幾百上千萬公里實(shí)測(cè)里程,或者仿真測(cè)試?yán)锍踢^億,但都回避了關(guān)鍵問題:
這些數(shù)據(jù)中,真正對(duì)系統(tǒng)能力有關(guān)鍵性提升的有多少?
比如自動(dòng)駕駛在平直無車的高速上測(cè)試百萬公里,可能都不如在城市中遇見一次“鬼探頭”的提升大。
關(guān)鍵場(chǎng)景的查漏補(bǔ)缺,行業(yè)內(nèi)通常稱為“長尾場(chǎng)景”。
現(xiàn)在一般有兩種解決思路,一種是大力出奇跡,盡可能多的車,跑盡可能多的路,期望最大程度覆蓋各種罕見的交通狀況,讓自動(dòng)駕駛能力從量變積累到質(zhì)變飛躍。
其實(shí),包括現(xiàn)在成為行業(yè)共識(shí)的端到端技術(shù)體系,本質(zhì)上仍然是通過這樣的思路解決問題,只不過把整個(gè)自動(dòng)駕駛流程中更多環(huán)節(jié)的權(quán)限移交給了 AI。
另外一種,則是在有限算力、參數(shù)限制下,用人為手寫的規(guī)則,給自動(dòng)駕駛套上“安全殼”,極限情況下通過降級(jí)或者剎停等等手段兜底。這是現(xiàn)在大部分量產(chǎn)智駕的方法,但劣勢(shì)很明顯:系統(tǒng)決策僵硬死板,泛化性差,體驗(yàn)更差。
不知大家發(fā)現(xiàn)沒有,無論是哪一種方式,都沒有在 AI 算法這個(gè)層面剖析“稀疏度”本質(zhì),自然也就提不出針對(duì)性的解決方案。
作者在論文開篇就直接指出了這個(gè)問題:
盡管在公共道路上積累了數(shù)百萬英里的測(cè)試?yán)锍蹋詣?dòng)駕駛?cè)噪y以有效處理頻發(fā)的“安全關(guān)鍵事件”。能商用的 L4 也一直落不了地。
所以將“稀疏度”稱為“自動(dòng)駕駛的災(zāi)難”。
新研究解決稀疏度災(zāi)難的方法,是打開 AI 黑箱,嘗試用數(shù)學(xué)表達(dá)稀疏度本質(zhì),并提出了三種對(duì)應(yīng)的解決辦法。
怎么辦到的
具體來說,作者認(rèn)為傳統(tǒng)上比較重視的安全關(guān)鍵事件的概率分布,其實(shí)并不核心。
相反,真正挑戰(zhàn)在于如何定義高度復(fù)雜場(chǎng)景中安全關(guān)鍵情況的稀有性,例如不同的天氣條件、不同的道路基礎(chǔ)設(shè)施以及道路使用者的行為差異…
這些安全關(guān)鍵情況,可能由于多種原因而出現(xiàn),比如對(duì)未知物體的錯(cuò)誤識(shí)別,或?qū)Ω浇腥诉\(yùn)動(dòng)軌跡錯(cuò)誤預(yù)測(cè)… 這類事件發(fā)生的概率很低,大多數(shù)可用數(shù)據(jù)只包含很少的罕見事件信息。
因?yàn)楹币娛录膶氋F信息可能被大量正常數(shù)據(jù)所掩蓋,所以深度學(xué)習(xí)模型其實(shí)很難有效學(xué)習(xí)到這些安全關(guān)鍵事件。
關(guān)鍵的地方來了。深度學(xué)習(xí)的本質(zhì)是通過優(yōu)化目標(biāo)函數(shù)對(duì)具有特定分布的數(shù)據(jù)期望,來獲得神經(jīng)網(wǎng)絡(luò)的最優(yōu)參數(shù)。
為了解決這個(gè)優(yōu)化問題,最常用的方法是基于梯度下降,在每個(gè)訓(xùn)練步驟使用一批數(shù)據(jù)通過蒙特卡洛估計(jì)來估計(jì)梯度。
然而,隨著安全關(guān)鍵事件的罕見性增加,估計(jì)方差會(huì)呈指數(shù)增加,導(dǎo)致“稀疏度災(zāi)難”。
解決方法有三個(gè)。
首先是使用更多罕見事件數(shù)據(jù)進(jìn)行有效訓(xùn)練。
這種方法側(cè)重?cái)?shù)據(jù),專門利用與罕見事件相關(guān)的數(shù)據(jù)來不斷改進(jìn)系統(tǒng)能力。但定義和識(shí)別罕見事件不是那么簡單的。因?yàn)樗鼈円蕾囉谔囟ㄓ趩栴}的目標(biāo)函數(shù),并受到安全關(guān)鍵事件的時(shí)空復(fù)雜性的影響。更重要的,現(xiàn)在學(xué)界仍然缺乏可以指導(dǎo)罕見事件數(shù)據(jù)利用的理論基礎(chǔ)。
對(duì)于這樣的安全驗(yàn)證任務(wù),團(tuán)隊(duì)之前的試圖通過密集深度強(qiáng)化學(xué)習(xí) (D2RL) 方法來解決(即登上 Nature 封面的研究),實(shí)驗(yàn)結(jié)果表明,D2RL 可以顯著降低策略梯度估計(jì)的方差,這是解決 CoR 的重要一步。
其次是提高機(jī)器學(xué)習(xí)模型的泛化和推理能力。實(shí)際上作者在這里討論的就是 AGI 的問題,目前在自動(dòng)駕駛領(lǐng)域最前沿的嘗試是端到端模型。
人類可以在有限的經(jīng)驗(yàn)(通常少于一百小時(shí)的訓(xùn)練)下學(xué)習(xí)駕駛,所以未來的 AI 也有可能在不依賴大量特定于任務(wù)的數(shù)據(jù)的情況下克服 CoR。這就要求 AI 同時(shí)具備自下而上的推理(感知數(shù)據(jù)驅(qū)動(dòng))和自上而下的推理(認(rèn)知期望驅(qū)動(dòng))能力。
可以參考大型語言模型 (LLM) 和視覺語言模型 (VLM) 的方案,它們的基礎(chǔ)模型通過采用完全監(jiān)督微調(diào)、情境學(xué)習(xí)和思路鏈等技術(shù),展現(xiàn)出了出卓越的泛化和推理能力。
第三種方法,是通過減少安全關(guān)鍵事件的發(fā)生來減輕 CoR 對(duì)整個(gè)系統(tǒng)的影響。
直白的說就是盡量降低系統(tǒng)對(duì)場(chǎng)景、目標(biāo)的錯(cuò)檢漏檢。具體方法有很多,比如將傳統(tǒng)深度學(xué)習(xí)模型和強(qiáng)化學(xué)習(xí)想結(jié)合,訓(xùn)練 AI“預(yù)防性駕駛”能力、車路協(xié)同多傳感器融合、車云一體化方案等等。
三種解決 CoR 問題的潛在方法,從不同角度出發(fā)。不過作者強(qiáng)調(diào),這些方法并不相互排斥,結(jié)合起來會(huì)有巨大的潛力。
有什么意義?
CoR 的影響不僅僅局限在感知環(huán)節(jié),而是滲透進(jìn)了自動(dòng)駕駛各個(gè)流程,逐級(jí)累加。一個(gè)概率極低的安全關(guān)鍵情況一旦出現(xiàn),可能造成很嚴(yán)重的后果。
例如,單幀中的物體分類錯(cuò)誤可能不是什么大問題,而一系列幀(clips)中的多個(gè)物體分類錯(cuò)誤可能會(huì)導(dǎo)致嚴(yán)重的錯(cuò)誤識(shí)別和誤判,此類事件的發(fā)生概率遠(yuǎn)低于任何單個(gè)錯(cuò)誤的發(fā)生概率,因此 CoR 問題變得更加嚴(yán)重。
軌跡預(yù)測(cè)層面上,一個(gè)小小的預(yù)測(cè)錯(cuò)誤可能會(huì)導(dǎo)致誤報(bào)或漏報(bào),從而導(dǎo)致過于謹(jǐn)慎的駕駛決策或過于自信的決策而導(dǎo)致事故。所以行為預(yù)測(cè)模型必須有效處理容易出現(xiàn) CoR 的罕見事件。
決策環(huán)節(jié),以往由于現(xiàn)實(shí)世界數(shù)據(jù)的缺乏和偶然性,深度學(xué)習(xí)模型很容易受到 CoR 的影響,這可能導(dǎo)致策略梯度估計(jì)的嚴(yán)重差異。
自然而然,由于 CoR 的存在,理論上評(píng)估自動(dòng)駕駛的安全性能需要數(shù)億英里,這是不切實(shí)際且效率低下的,這也是為何仿真測(cè)試成了主流。但問題是,許多現(xiàn)有方法僅限于處理有限目標(biāo)的短場(chǎng)景段,無法捕捉現(xiàn)實(shí)世界安全關(guān)鍵事件的全部復(fù)雜性和多變性。
所以 CoR 盡管不是一個(gè)看得見、摸得著的 bug,但危害深刻滲透進(jìn)自動(dòng)駕駛每個(gè)環(huán)節(jié)。
這項(xiàng)新研究最大的意義,是解釋了 CoR 的數(shù)學(xué)本質(zhì),并提出了幾種可能的解決方法。
作者團(tuán)隊(duì)介紹
這項(xiàng)研究由美國密西根大學(xué)和清華大學(xué)研究人員合作完成。
一作、通訊作者劉向宏博士,現(xiàn)任美國密歇根大學(xué)講席教授、Mcity 主任(密歇根大學(xué)主導(dǎo)的智能交通模擬城市項(xiàng)目)。
他在國內(nèi)最被外界熟悉的身份是滴滴前首席科學(xué)家。
劉向宏 1993 年本科畢業(yè)于清華大學(xué)汽車工程系,2000 年在威斯康星大學(xué)麥迪遜分校取得博士學(xué)位。
劉教授是交通工程領(lǐng)域論文引用率最高的學(xué)者之一,他發(fā)明的用于精確測(cè)量交叉路口的排隊(duì)長度和旅行時(shí)間的 SMART-Signal 系統(tǒng)于 2012 年取得美國國家專利,并已在美國明尼蘇達(dá)州和加州得到廣泛應(yīng)用。
本文共同一作、通訊作者封碩,現(xiàn)在在清華自動(dòng)化系任助理教授,曾前在劉向宏教授的 Traffic Lab 做博士后、研究員。
封碩本科和博士學(xué)位都在清華大學(xué)自動(dòng)化系獲得,研究方向是優(yōu)化控制、互聯(lián)和自動(dòng)駕駛評(píng)估以及交通數(shù)據(jù)分析。
從封碩和劉向宏教授團(tuán)隊(duì)以往發(fā)表的成果和科研方向來看,他們一直在持續(xù)推進(jìn)自動(dòng)駕駛安全驗(yàn)證評(píng)估和仿真測(cè)試的優(yōu)化升級(jí)。
比如之前我們報(bào)道過的 D2RL,就是通過強(qiáng)化學(xué)習(xí)手段針對(duì)性生成高價(jià)值數(shù)據(jù),提高仿真測(cè)試的效率。
有趣的是,無論是自動(dòng)駕駛、智能汽車產(chǎn)業(yè)界從工程實(shí)踐出發(fā),還是高校學(xué)者從數(shù)學(xué)原理層面抽象歸納總結(jié),竟然都指向了 AGI、端到端、數(shù)據(jù)驅(qū)動(dòng)的路徑。
所以端到端會(huì)是自動(dòng)駕駛的最優(yōu)解,或者說它會(huì)是自動(dòng)駕駛“歷史的終結(jié)”嗎?
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。