IT之家 12 月 26 日消息,理想汽車今晚發(fā)布“理想 AI Talk 訪談實(shí)錄 02”,理想汽車董事長兼 CEO 李想、智能駕駛研發(fā)副總裁郎咸朋回答了關(guān)于智駕方面的部分問題。
IT之家附“理想 AI Talk 訪談實(shí)錄 02”部分重點(diǎn)內(nèi)容如下:
張小珺:第一次試駕端到端是什么樣的體驗(yàn)?
郎咸朋:我第一次試到這個(gè)車,從中關(guān)村開到了北京交通大學(xué)。開了幾公里我就問旁邊的賈鵬,這是規(guī)則還是怎么做的?怎么我覺得開得這么好呢?他說一句規(guī)則都沒寫,全都是系統(tǒng)按照咱們給它的數(shù)據(jù)自己訓(xùn)練出來的。
咱們開車都知道,如果前面有個(gè)車剎停的話,它是要緩慢減速,甚至還再抬起一點(diǎn)剎車,有這樣非常舒適的剎車過程。這個(gè)過程我們團(tuán)隊(duì)在規(guī)則階段寫了很長時(shí)間的代碼,都沒有達(dá)到一個(gè)完全擬人、解決所有場景的表現(xiàn)。
但我第一次試駕端到端,它的縱向就已經(jīng)比之前試過所有的都要好的狀態(tài),這才用了短短不到 15 天。所以我覺得那時(shí)候建立了一個(gè)信心,就是端到端一定能做出來。而且一旦它做出來,就一定會(huì)比現(xiàn)在所有的智能駕駛軟件都要好。
張小珺:既然端到端是靈丹妙藥,為什么去年不上?特斯拉去年就上了,你去年在干嘛?
郎咸朋:我們?cè)诘?,等足夠的?shù)據(jù)和算力,等到了我們就能上了。
端到端 VLM 大模型其實(shí)最終的本質(zhì)是用人工智能來做自動(dòng)駕駛。人工智能的三個(gè)要素:算法、數(shù)據(jù)和算力。這三個(gè)要素必須全都齊備。我們是今年是準(zhǔn)備好了,所以我們能做這個(gè)事情。
理想 AD Max 車型的銷量,去年起來了之后到今年初(高質(zhì)量訓(xùn)練)數(shù)據(jù)量達(dá)到 10 億(公里)左右規(guī)模,這是一個(gè)基礎(chǔ)。第二是算力基礎(chǔ),今年初我們算力也到了 5EFLOPS。再加上第三步,就是端到端的一些預(yù)研也有一定成果,所以到今年初是天時(shí)地利人和,可以做這個(gè)事情了,去年我們還在補(bǔ)課的一個(gè)過程。
張小珺:為什么很多企業(yè)的端到端是兩個(gè)模型,而不是 One Model?
郎咸朋:這個(gè)是算法和理念的問題。我們要做端到端時(shí)就給自己定了一個(gè)目標(biāo),一定要用純數(shù)據(jù)驅(qū)動(dòng)的方式來做這件事情,而不是結(jié)合了之前的規(guī)則來做,所以說它的性能上限會(huì)非常高。
張小珺:為什么理想是端到端 + VLM,不像特斯拉只用端到端?你們對(duì)自己的端到端不夠自信嗎?
郎咸朋:不能這么講,我們?cè)谧黾夹g(shù)方案時(shí)充分參考了世界上所有的先進(jìn)方案,但始終無法解決一個(gè)問題是,當(dāng)一套自動(dòng)駕駛或智能駕駛系統(tǒng),它工作時(shí)如果遇到之前沒有見過的場景,應(yīng)該怎么處理?我們認(rèn)為就是端到端 + VLM,就是系統(tǒng) 1 + 系統(tǒng) 2 的方式,很好地模仿人類大腦的工作方式。
張小珺:特斯拉沒有用激光雷達(dá),你們?yōu)槭裁匆茫?/p>
李想:很多人不太理解說:為什么要保留激光雷達(dá),還是為了安全。是不是因?yàn)槟慵夹g(shù)不好?不是,中國和美國是不一樣的,如果你經(jīng)常在中國晚上夜路開車,你會(huì)看到有尾燈壞了的大貨車、甚至可能尾燈壞的大貨車會(huì)直接停在主路上,至少我們今天的攝像頭,能夠在深夜里沒有光線下看到的距離,其實(shí)只有 100 米出頭。
但是激光雷達(dá),在沒有任何光線的情況下是可以看到 200 米的。這就可以幫助我們實(shí)現(xiàn) 130 公里 / 小時(shí)的 AEB 自動(dòng)緊急制動(dòng)。那我覺得這個(gè)是非常重要的,因?yàn)槲覀兪莻€(gè)面向家庭的車,每個(gè)人生命安全都非常的重要,所以這是我們繼續(xù)保留激光雷達(dá)根本所在。而且后邊的車型仍然會(huì)保留。我相信如果馬斯克在中國,在深夜里不同的高速開過車,他也會(huì)選擇把前面的一顆激光雷達(dá)保留下來。因?yàn)樘厮估瓕?duì)于安全同樣地重視,只是他要在這個(gè)環(huán)境里來看到。
張小珺:理想激進(jìn)的用只有一個(gè)模型的端到端,其他車企還在用兩個(gè)模型,為什么?
李想:很多時(shí)候可能跟我們有一些比較好的外腦有關(guān),像王興、陸奇博士,他們會(huì)給我們帶來很多啟發(fā)。有一次陸奇博士跟我們講,你們應(yīng)該思考一下人是怎么工作的?我覺得這個(gè)當(dāng)時(shí)對(duì)我們幫助很大。
今年初我還逼著智駕團(tuán)隊(duì)去美國,他們?cè)诓煌某鞘虚_ FSD V12。另一方面我們研究工作也在進(jìn)行,那時(shí)已經(jīng)在發(fā)端到端 + VLM 的各種研究論文了。回來以后我覺得要么你做這個(gè),要么我們就不要再做自動(dòng)駕駛了。今天你靠這些規(guī)則上來做的,跟請(qǐng)個(gè)供應(yīng)商做出來的東西有啥區(qū)別?沒有啥區(qū)別。
我說服郎博他們很重要的一點(diǎn),我說你們經(jīng)常解決了一個(gè) Corner Case(極端情況),又出現(xiàn)三個(gè)其他的 Corner Case。你們一輩子都在解決 Corner Case,解決不完。
張小珺:大家都說理想做智駕是投入最晚最慢的,你怎么看?
郎咸朋:2018 年 1 月我加入理想時(shí),跟李想討論過這個(gè)問題。什么才是決定最終智能駕駛或自動(dòng)駕駛實(shí)現(xiàn)的最關(guān)鍵因素?我們當(dāng)時(shí)聊的就是數(shù)據(jù)。人才可以流動(dòng)、算法可以提升、算力也非常重要,但是只要有健康的資金、合理的資金使用也是能買得到的。
那么最重要就是數(shù)據(jù),數(shù)據(jù)它是買不到的,必須自己有這樣一個(gè)非常高質(zhì)量、規(guī)模非常大的數(shù)據(jù),才可以做好自動(dòng)駕駛。所以我們要按照節(jié)奏來做自動(dòng)駕駛,剛開始我們要先把車造好、把車賣好,然后積累更多的資金、人才和數(shù)據(jù),到了一定時(shí)間點(diǎn)再大量投入,去達(dá)到更好的自動(dòng)駕駛的效果。其實(shí)從現(xiàn)在結(jié)果上也是能看出這一點(diǎn)的:我們自動(dòng)駕駛的節(jié)奏是非常好的。
張小珺:什么時(shí)候理想意識(shí)到,智駕對(duì)于賣車是有幫助的?
郎咸朋:從實(shí)際表現(xiàn)來看是從今年開始的,今年智能駕駛確實(shí)對(duì)于銷量有非常好的促進(jìn)作用。我們 2 月 AD Max 的交付量占比只到 20% 左右,然后到今年下半年超過 50% 了,這是實(shí)打?qū)嵉臉I(yè)績。早期大家認(rèn)為自動(dòng)駕駛是一個(gè)功能,它跟座椅加熱沒有大的區(qū)別,并沒有解決用戶日常出行的舒適性。直到現(xiàn)在我們用 AI 來做自動(dòng)駕駛,端到端 + VLM 真正解放用戶長時(shí)間的駕駛疲勞。當(dāng)我們能達(dá)到綜合 MPI(城市 + 高速綜合接管里程)100 公里、幾百公里時(shí),大家就真正愿意為自動(dòng)駕駛買單了。
張小珺:理想提出有監(jiān)督智能駕駛,跟自動(dòng)駕駛 L1 到 L5 傳統(tǒng)分級(jí)有什么區(qū)別?
郎咸朋:這里面其實(shí)體現(xiàn)我們對(duì)自動(dòng)駕駛研發(fā)的思路差別。之前很多人認(rèn)為 L3 自動(dòng)駕駛是 L2 輔助駕駛的延續(xù),只要把 L2 輔助駕駛的場景越做越多,總有一天能無限趨近于 L3,甚至可能就能夠做到 L3。
但在我們看來,L3 或者有監(jiān)督智能駕駛,它并不是 L2 的延續(xù),而是 L4 或者自動(dòng)駕駛的先導(dǎo)程序。實(shí)際上我們是錨著未來的自動(dòng)駕駛能力去研發(fā)、去成長和迭代的,而不是沿著過去一套用 L2 的思路,去做現(xiàn)在的自動(dòng)駕駛。
張小珺:你說自動(dòng)駕駛是能力、輔助駕駛是功能,兩者本質(zhì)區(qū)別是什么?
郎咸朋:功能是預(yù)設(shè)條件,能力是應(yīng)對(duì)所有條件。你不可能窮盡所有的預(yù)設(shè)。
功能的話,還是用上一代的這種軟件 1.0 方案來做自動(dòng)駕駛。最大的問題是在研發(fā)之初,就要清晰地設(shè)定所有條件、所有邊界,以及最終確定性的結(jié)果。這在自動(dòng)駕駛里是非常困難的。
能力的話,是用人工智能的方式來做自動(dòng)駕駛。當(dāng)我們把自動(dòng)駕駛當(dāng)成能力來開發(fā),從最本質(zhì)思考人是怎么學(xué)會(huì)開車的。最開始人去駕校學(xué)習(xí),掌握基本駕駛技能再考試??纪暾莆栈灸芰χ?,作為實(shí)習(xí)司機(jī)一邊實(shí)踐一邊提升能力,慢慢地成長為老司機(jī)。我們系統(tǒng) 1 + 系統(tǒng) 2 的方案,讓自動(dòng)駕駛系統(tǒng)擁有這種能力去迭代和成長,隨著數(shù)據(jù)量的增長,它會(huì)慢慢地讓性能隨之提升,這個(gè)就是大家經(jīng)常說的規(guī)模效應(yīng)。
張小珺:你們驗(yàn)證了自動(dòng)駕駛的規(guī)模效應(yīng)嗎?
郎咸朋:我們已經(jīng)驗(yàn)證出來了。這不是我們發(fā)明的,所有的大模型應(yīng)用都符合這種規(guī)律,也就是說數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量的增長,會(huì)帶動(dòng)性能的增長。而且性能增長是接近于線性的,這就是我們用大模型最本質(zhì)的好處。
張小珺:有監(jiān)督智能駕駛階段,理想交付給用戶的產(chǎn)品長什么樣?
郎咸朋:全場景的、一體化端到端產(chǎn)品。要想實(shí)現(xiàn)有監(jiān)督智能駕駛,一個(gè)前提是實(shí)現(xiàn)車位到車位,也就是解決最前面一百米和最后面一百米。以前智駕是從干道開始,現(xiàn)在可以從小區(qū)車位開始,然后包括園區(qū)道路、泊車、城市道路,還有高速和收費(fèi)站 ETC 都會(huì)全部打通。
高速城市全場景升級(jí)端到端 + VLM,以及創(chuàng)新的 AI 推理可視化的交互,將在近期隨 OTA 全量推送給所有的 AD Max 用戶。
張小珺:L3 什么時(shí)候?qū)崿F(xiàn)?
郎咸朋:按照現(xiàn)在的端到端 + VLM 這套體系,能力繼續(xù)迭代的話,我們是有希望在 2025 年去實(shí)現(xiàn) L3 的。
張小珺:面對(duì)李想年初對(duì)于智駕的發(fā)火,你的職業(yè)危機(jī)是什么時(shí)候解除的?
郎咸朋:我覺得到現(xiàn)在還沒解除,因?yàn)檫€沒有做到極致。我們的目標(biāo)是今年綜合 MPI(城市 + 高速綜合接管里程)做到 100 公里接管一次的能力。這個(gè)接管不是安全接管,不是說你要撞車了才接管,是用戶覺得車開得不符合體驗(yàn)、不舒服的接管。到明年、后年,我們會(huì)逐漸提升至 500 公里、甚至 1000 公里以上。慢慢讓大家對(duì)智駕越來越自信、越來越依賴。
張小珺:要實(shí)現(xiàn)這樣的目標(biāo),需要儲(chǔ)備多少算力和數(shù)據(jù)?
郎咸朋:要達(dá)到 500 公里的綜合 MPI(城市 + 高速綜合接管里程),預(yù)計(jì)需要 2000 萬 Clips(視頻片段)的水平。如果 2000 萬 Clips 從不到 5% 的老司機(jī)去篩選,這里隱含的數(shù)據(jù)量,要達(dá)到 50 億公里甚至上百億公里的水平。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。