首頁 > 智車之家>車用技術(shù)

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

智能車參考 2024/6/20 15:24:50 責(zé)編：清源

評論：

用視頻生成的仿真場景，能有多逼真？

兩旁的行人，前車的剎車燈…… 連這些細(xì)節(jié)，都能動(dòng)態(tài)顯示得清清楚楚。

兩輛自行車行駛在道路中間，避讓通過：

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

這就是如今自動(dòng)駕駛“當(dāng)紅炸子雞”Wayve，在 CVPR 2024 上分享的最新成果：

自動(dòng)駕駛仿真模型 PRISM-1，沒有激光雷達(dá)，沒有 3D 標(biāo)注信息，只基于攝像頭輸入的信息。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

PRISM-1：利用視頻數(shù)據(jù)重建 4D 真實(shí)場景

模擬仿真測試是自動(dòng)駕駛的重要環(huán)節(jié)。

實(shí)車測試周期長，成本高，覆蓋的工況和長尾問題有限，尤其是極端場景下的 Corner Case，實(shí)車測試比較危險(xiǎn)，且調(diào)試程序后，可能不好復(fù)現(xiàn)驗(yàn)證。路還是那條路，但路況和道路參與者一直都在變。

因此，通過合成數(shù)據(jù)，仿真測試自動(dòng)駕駛系統(tǒng)的路線，正在受到關(guān)注。

成本低，配置靈活，場景覆蓋率高，對特殊的 Corner Case 能夠復(fù)現(xiàn)后再驗(yàn)證，可以與實(shí)車測試形成互補(bǔ)。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

不過自動(dòng)駕駛模擬仿真也面臨著諸多挑戰(zhàn)，比如在場景重建環(huán)節(jié)，復(fù)雜的城區(qū)道路，有很多動(dòng)態(tài)元素難以準(zhǔn)確呈現(xiàn)，像行人和自行車，不僅形態(tài)各樣，而且行為靈活難預(yù)測。

傳統(tǒng)還原通過場景圖的方式，將元素組織成層次結(jié)構(gòu)，用節(jié)點(diǎn)表示場景中的實(shí)體，用彼此的邊緣表示它們之間的關(guān)系。

這種方式不夠靈活，因?yàn)楫?dāng)車輛模擬測試時(shí)，周邊場景其實(shí)一直在動(dòng)態(tài)改變，一些元素?zé)o法完美分離，會(huì)導(dǎo)致錯(cuò)誤傳播。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

為了突破傳統(tǒng)方式的局限，Wayve 轉(zhuǎn)向更靈活、能自適應(yīng)的模擬方案，在端到端的基礎(chǔ)上，提出了 PRISM-1 模型。

主要是三個(gè)特點(diǎn)：

框架更靈活：能有效處理常見元素，模擬移動(dòng)元素，甚至包括瞬態(tài)場景元素，比如風(fēng)吹動(dòng)的樹葉，隧道中的波動(dòng)光線。
自監(jiān)督場景分離：無需標(biāo)注或預(yù)定義模型，分離場景中的動(dòng)態(tài)元素和靜態(tài)元素。
可擴(kuò)展表示：即使場景復(fù)雜度增加，PRISM-1 仍能保持高效。這最大限度地減少了工程量和錯(cuò)誤傳播。

詳細(xì)過程，Wayve 沒有披露，只是主要介紹了視圖合成方面的創(chuàng)新點(diǎn)。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

具體地說，PRISM-1 重點(diǎn)關(guān)注攝像頭觀測到的路徑的偏差。

無需依賴其他傳感器，只靠攝像頭，獲取車輛行駛時(shí)的一組稀疏圖像，重建 4D 場景。

當(dāng)然，用攝像頭獲取數(shù)據(jù)場景數(shù)據(jù)，有一個(gè)天然限制，那就是在動(dòng)態(tài)場景下，只能從一個(gè)視角拍攝其中的元素。

如何在任意時(shí)刻，從不同視角重建 4D 場景？

PRISM-1 在承認(rèn)車子動(dòng)態(tài)特性的前提下，通過兩種方式改變攝像頭路徑：

第一種方式，凍結(jié)時(shí)間。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

測試車輛周遭一切都暫停了，場景的時(shí)間維度不變，但空間可變，攝像頭左右平移，以不同角度查看周邊場景。

第二種方式，凍結(jié)空間。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

測試車輛自身保持靜止，空間數(shù)據(jù)不變，但時(shí)間還在變化，周遭事物還能運(yùn)動(dòng)，觀察其變化。

兩種方式結(jié)合，Wayve 可以利用 PRISM-1 從各種視角重建場景，甚至復(fù)現(xiàn)一些細(xì)節(jié)，比如前車剎車燈亮了。

Wayve 還將在此基礎(chǔ)上，繼續(xù)迭代工作。

下一步，Wayve 打算加強(qiáng)模型的可擴(kuò)展性和靈活性。

比如，用模型去重建一個(gè)“行人通過斑馬線”的場景。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

如果需要，也可以把行人移除掉。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

推出 PRISM-1，提高自動(dòng)駕駛模擬的真實(shí)性，加快算法迭代的同時(shí)，Wayve 還開源了一個(gè)場景數(shù)據(jù)集 WayveScenes101 Dataset，顧名思義，包含了 101 個(gè)復(fù)雜動(dòng)態(tài)場景。

涵蓋了英美兩地，不同的駕駛環(huán)境和路況，包括多種天氣和光照條件下的城區(qū)、郊區(qū)和高速公路。

當(dāng)然，能被微軟和英偉達(dá)同時(shí)相中押注，Wayve 的工作成果遠(yuǎn)不止這些。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

自動(dòng)駕駛獨(dú)角獸，微軟英偉達(dá)都投了

遍觀全球，最近一段時(shí)間，特別是在自動(dòng)駕駛領(lǐng)域，很少有獨(dú)角獸，能蓋住 Wayve 的風(fēng)頭了。5 月 7 日，Wayve 官宣了 10.5 億美元 (折合人民幣約為 75.8 億元) 的新一輪融資。

軟銀領(lǐng)投，微軟和英偉達(dá)跟投。數(shù)額之巨，投資者陣容之豪華，實(shí)屬罕見，轟動(dòng)一時(shí)。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

在此前，只有 Waymo、Argo 和 Cruise 等，獲得過這個(gè)級別的融資。

Wayve 一舉刷新英國 AI 公司單筆融資的記錄，連英國首相也在聲明中表示，這「鞏固了英國作為 AI 超級大國的地位」。彼時(shí)的 Wayve 都有什么技術(shù)成果，吸引巨頭押注？

主要是一個(gè)架構(gòu)，兩個(gè)模型：

一個(gè)架構(gòu)是指端到端的 AV 2.0，不依賴高精地圖，Wayve 稱可兼容純視覺和激光雷達(dá)多種方案。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

兩個(gè)模型是指 LINGO 系列以及 GAIA-1，分別是 Wayve 在 AI 的可解釋性與 AIGC 上的成果。

首先來看 LINGO 系列，去年 9 月，Wayve 推出了 LINGO-1 模型。

Wayve 將其稱之為 VLAM (視覺-語言-動(dòng)作模型)，與傳統(tǒng)技術(shù)范式不同的是，視頻數(shù)據(jù)之外，Wayve 還引入了老司機(jī)語音包進(jìn)行訓(xùn)練：

Wayve 請來很多專業(yè)司機(jī)，要求他們在開測試車輛做出相應(yīng)操作時(shí)，大聲說話，解釋自己為什么這么做。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

這樣，自然語言就被引入了自動(dòng)駕駛，LINGO-1 實(shí)現(xiàn)了在開車時(shí)，解釋自己的決策邏輯，這提高了模型的可解釋性。

這項(xiàng)工作最近升級至 LINGO-2，進(jìn)一步增強(qiáng)了人車交互，司機(jī)可以通過限定的命令，比如「靠邊停車」，調(diào)整智駕的開車策略。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

另外一個(gè)模型則是 GAIA-1，是一個(gè)為自動(dòng)駕駛打造的多模態(tài)生成式世界模型，參數(shù)規(guī)模 90 億。

輸入視頻、文本和操作，就能生成逼真的自動(dòng)駕駛視頻，不同路況和天氣，效果都能以假亂真。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

誒等等，GAIA-1 能生成自動(dòng)駕駛測試的視頻，PRISM-1 能用視頻模擬真實(shí)場景，兩個(gè)一結(jié)合，這不就閉環(huán)了嗎？doge

當(dāng)然沒有這么簡單，在去年 6 月，Wayve 推出 GAIA-1 早期版本后，就有相關(guān)研究人員指出，模型生成的視頻中，會(huì)有一些元素在后續(xù)“突然消失”，還不完善。

雖然去年 10 月，Wayve 更新了 GAIA-1，擴(kuò)大了參數(shù)規(guī)模，增加了訓(xùn)練時(shí)長，模型生成視頻的細(xì)節(jié)和分辨率都有明顯提升，但是否完全克服了“元素突然消失”的問題，還有待充分驗(yàn)證。

引領(lǐng) Wayve 打造這些成果的，是兩位聯(lián)合創(chuàng)始人：

Alex Kendall (亞歷克斯?肯德爾) 與 Amar Shah (已退出)。

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

兩人都是劍橋大學(xué)機(jī)器學(xué)習(xí)專業(yè)的博士，于 2017 年創(chuàng)立了 Wayve。

其中肯達(dá)爾去年曾陪同比爾?蓋茨試乘旗下產(chǎn)品，比爾?蓋茨后來點(diǎn)贊其工作:

That was fantastic!

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

或許是這次試乘打動(dòng)了比爾蓋茨，微軟連續(xù)兩次出手，投資 Wayve。

Wayve 也是不負(fù)所托，最近一年頻頻拿出成果，給行業(yè)帶來驚喜。

時(shí)值 CVPR 2024，Wayve 也舉辦了一系列活動(dòng)，PRISM-1 研究人員就在現(xiàn)場。

本文來自微信公眾號：智能車參考（ID：AI4Auto），作者：有據(jù)無車

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

自動(dòng)駕駛要啥實(shí)路測試？L4 當(dāng)紅獨(dú)角獸新模型：2D 視頻輸入 4D 場景輸出，難怪老黃看好

PRISM-1：利用視頻數(shù)據(jù)重建 4D 真實(shí)場景

自動(dòng)駕駛獨(dú)角獸，微軟英偉達(dá)都投了

相關(guān)文章

自動(dòng)駕駛獨(dú)角獸，微軟英偉達(dá)都投了