理想汽車 CEO 李想：要么就做端到端，要么就不再做自動駕駛

2024/12/26 20:57:33 來源：IT之家作者：浩渺責(zé)編：浩渺

評論：

IT之家 12 月 26 日消息，理想汽車今晚發(fā)布“理想 AI Talk 訪談實錄 02”，理想汽車董事長兼 CEO 李想、智能駕駛研發(fā)副總裁郎咸朋回答了關(guān)于智駕方面的部分問題。

IT之家附“理想 AI Talk 訪談實錄 02”部分重點內(nèi)容如下：

張小珺：第一次試駕端到端是什么樣的體驗？

郎咸朋：我第一次試到這個車，從中關(guān)村開到了北京交通大學(xué)。開了幾公里我就問旁邊的賈鵬，這是規(guī)則還是怎么做的？怎么我覺得開得這么好呢？他說一句規(guī)則都沒寫，全都是系統(tǒng)按照咱們給它的數(shù)據(jù)自己訓(xùn)練出來的。
咱們開車都知道，如果前面有個車剎停的話，它是要緩慢減速，甚至還再抬起一點剎車，有這樣非常舒適的剎車過程。這個過程我們團隊在規(guī)則階段寫了很長時間的代碼，都沒有達到一個完全擬人、解決所有場景的表現(xiàn)。
但我第一次試駕端到端，它的縱向就已經(jīng)比之前試過所有的都要好的狀態(tài)，這才用了短短不到 15 天。所以我覺得那時候建立了一個信心，就是端到端一定能做出來。而且一旦它做出來，就一定會比現(xiàn)在所有的智能駕駛軟件都要好。

張小珺：既然端到端是靈丹妙藥，為什么去年不上？特斯拉去年就上了，你去年在干嘛？

郎咸朋：我們在等，等足夠的數(shù)據(jù)和算力，等到了我們就能上了。
端到端 VLM 大模型其實最終的本質(zhì)是用人工智能來做自動駕駛。人工智能的三個要素：算法、數(shù)據(jù)和算力。這三個要素必須全都齊備。我們是今年是準備好了，所以我們能做這個事情。
理想 AD Max 車型的銷量，去年起來了之后到今年初（高質(zhì)量訓(xùn)練）數(shù)據(jù)量達到 10 億（公里）左右規(guī)模，這是一個基礎(chǔ)。第二是算力基礎(chǔ)，今年初我們算力也到了 5EFLOPS。再加上第三步，就是端到端的一些預(yù)研也有一定成果，所以到今年初是天時地利人和，可以做這個事情了，去年我們還在補課的一個過程。

張小珺：為什么很多企業(yè)的端到端是兩個模型，而不是 One Model？

郎咸朋：這個是算法和理念的問題。我們要做端到端時就給自己定了一個目標，一定要用純數(shù)據(jù)驅(qū)動的方式來做這件事情，而不是結(jié)合了之前的規(guī)則來做，所以說它的性能上限會非常高。

張小珺：為什么理想是端到端 + VLM，不像特斯拉只用端到端？你們對自己的端到端不夠自信嗎？

郎咸朋：不能這么講，我們在做技術(shù)方案時充分參考了世界上所有的先進方案，但始終無法解決一個問題是，當(dāng)一套自動駕駛或智能駕駛系統(tǒng)，它工作時如果遇到之前沒有見過的場景，應(yīng)該怎么處理？我們認為就是端到端 + VLM，就是系統(tǒng) 1 + 系統(tǒng) 2 的方式，很好地模仿人類大腦的工作方式。

張小珺：特斯拉沒有用激光雷達，你們?yōu)槭裁匆茫?/p>

李想：很多人不太理解說：為什么要保留激光雷達，還是為了安全。是不是因為你技術(shù)不好？不是，中國和美國是不一樣的，如果你經(jīng)常在中國晚上夜路開車，你會看到有尾燈壞了的大貨車、甚至可能尾燈壞的大貨車會直接停在主路上，至少我們今天的攝像頭，能夠在深夜里沒有光線下看到的距離，其實只有 100 米出頭。
但是激光雷達，在沒有任何光線的情況下是可以看到 200 米的。這就可以幫助我們實現(xiàn) 130 公里 / 小時的 AEB 自動緊急制動。那我覺得這個是非常重要的，因為我們是個面向家庭的車，每個人生命安全都非常的重要，所以這是我們繼續(xù)保留激光雷達根本所在。而且后邊的車型仍然會保留。我相信如果馬斯克在中國，在深夜里不同的高速開過車，他也會選擇把前面的一顆激光雷達保留下來。因為特斯拉對于安全同樣地重視，只是他要在這個環(huán)境里來看到。

張小珺：理想激進的用只有一個模型的端到端，其他車企還在用兩個模型，為什么？

李想：很多時候可能跟我們有一些比較好的外腦有關(guān)，像王興、陸奇博士，他們會給我們帶來很多啟發(fā)。有一次陸奇博士跟我們講，你們應(yīng)該思考一下人是怎么工作的？我覺得這個當(dāng)時對我們幫助很大。
今年初我還逼著智駕團隊去美國，他們在不同的城市開 FSD V12。另一方面我們研究工作也在進行，那時已經(jīng)在發(fā)端到端 + VLM 的各種研究論文了。回來以后我覺得要么你做這個，要么我們就不要再做自動駕駛了。今天你靠這些規(guī)則上來做的，跟請個供應(yīng)商做出來的東西有啥區(qū)別？沒有啥區(qū)別。
我說服郎博他們很重要的一點，我說你們經(jīng)常解決了一個 Corner Case（極端情況），又出現(xiàn)三個其他的 Corner Case。你們一輩子都在解決 Corner Case，解決不完。

張小珺：大家都說理想做智駕是投入最晚最慢的，你怎么看？

郎咸朋：2018 年 1 月我加入理想時，跟李想討論過這個問題。什么才是決定最終智能駕駛或自動駕駛實現(xiàn)的最關(guān)鍵因素？我們當(dāng)時聊的就是數(shù)據(jù)。人才可以流動、算法可以提升、算力也非常重要，但是只要有健康的資金、合理的資金使用也是能買得到的。
那么最重要就是數(shù)據(jù)，數(shù)據(jù)它是買不到的，必須自己有這樣一個非常高質(zhì)量、規(guī)模非常大的數(shù)據(jù)，才可以做好自動駕駛。所以我們要按照節(jié)奏來做自動駕駛，剛開始我們要先把車造好、把車賣好，然后積累更多的資金、人才和數(shù)據(jù)，到了一定時間點再大量投入，去達到更好的自動駕駛的效果。其實從現(xiàn)在結(jié)果上也是能看出這一點的：我們自動駕駛的節(jié)奏是非常好的。

張小珺：什么時候理想意識到，智駕對于賣車是有幫助的？

郎咸朋：從實際表現(xiàn)來看是從今年開始的，今年智能駕駛確實對于銷量有非常好的促進作用。我們 2 月 AD Max 的交付量占比只到 20% 左右，然后到今年下半年超過 50% 了，這是實打?qū)嵉臉I(yè)績。早期大家認為自動駕駛是一個功能，它跟座椅加熱沒有大的區(qū)別，并沒有解決用戶日常出行的舒適性。直到現(xiàn)在我們用 AI 來做自動駕駛，端到端 + VLM 真正解放用戶長時間的駕駛疲勞。當(dāng)我們能達到綜合 MPI（城市 + 高速綜合接管里程）100 公里、幾百公里時，大家就真正愿意為自動駕駛買單了。

張小珺：理想提出有監(jiān)督智能駕駛，跟自動駕駛 L1 到 L5 傳統(tǒng)分級有什么區(qū)別？

郎咸朋：這里面其實體現(xiàn)我們對自動駕駛研發(fā)的思路差別。之前很多人認為 L3 自動駕駛是 L2 輔助駕駛的延續(xù)，只要把 L2 輔助駕駛的場景越做越多，總有一天能無限趨近于 L3，甚至可能就能夠做到 L3。
但在我們看來，L3 或者有監(jiān)督智能駕駛，它并不是 L2 的延續(xù)，而是 L4 或者自動駕駛的先導(dǎo)程序。實際上我們是錨著未來的自動駕駛能力去研發(fā)、去成長和迭代的，而不是沿著過去一套用 L2 的思路，去做現(xiàn)在的自動駕駛。

張小珺：你說自動駕駛是能力、輔助駕駛是功能，兩者本質(zhì)區(qū)別是什么？

郎咸朋：功能是預(yù)設(shè)條件，能力是應(yīng)對所有條件。你不可能窮盡所有的預(yù)設(shè)。
功能的話，還是用上一代的這種軟件 1.0 方案來做自動駕駛。最大的問題是在研發(fā)之初，就要清晰地設(shè)定所有條件、所有邊界，以及最終確定性的結(jié)果。這在自動駕駛里是非常困難的。
能力的話，是用人工智能的方式來做自動駕駛。當(dāng)我們把自動駕駛當(dāng)成能力來開發(fā)，從最本質(zhì)思考人是怎么學(xué)會開車的。最開始人去駕校學(xué)習(xí)，掌握基本駕駛技能再考試?？纪暾莆栈灸芰χ螅鳛閷嵙?xí)司機一邊實踐一邊提升能力，慢慢地成長為老司機。我們系統(tǒng) 1 + 系統(tǒng) 2 的方案，讓自動駕駛系統(tǒng)擁有這種能力去迭代和成長，隨著數(shù)據(jù)量的增長，它會慢慢地讓性能隨之提升，這個就是大家經(jīng)常說的規(guī)模效應(yīng)。

張小珺：你們驗證了自動駕駛的規(guī)模效應(yīng)嗎？

郎咸朋：我們已經(jīng)驗證出來了。這不是我們發(fā)明的，所有的大模型應(yīng)用都符合這種規(guī)律，也就是說數(shù)據(jù)規(guī)模和數(shù)據(jù)質(zhì)量的增長，會帶動性能的增長。而且性能增長是接近于線性的，這就是我們用大模型最本質(zhì)的好處。

張小珺：有監(jiān)督智能駕駛階段，理想交付給用戶的產(chǎn)品長什么樣？

郎咸朋：全場景的、一體化端到端產(chǎn)品。要想實現(xiàn)有監(jiān)督智能駕駛，一個前提是實現(xiàn)車位到車位，也就是解決最前面一百米和最后面一百米。以前智駕是從干道開始，現(xiàn)在可以從小區(qū)車位開始，然后包括園區(qū)道路、泊車、城市道路，還有高速和收費站 ETC 都會全部打通。
高速城市全場景升級端到端 + VLM，以及創(chuàng)新的 AI 推理可視化的交互，將在近期隨 OTA 全量推送給所有的 AD Max 用戶。

張小珺：L3 什么時候?qū)崿F(xiàn)？

郎咸朋：按照現(xiàn)在的端到端 + VLM 這套體系，能力繼續(xù)迭代的話，我們是有希望在 2025 年去實現(xiàn) L3 的。

張小珺：面對李想年初對于智駕的發(fā)火，你的職業(yè)危機是什么時候解除的？

郎咸朋：我覺得到現(xiàn)在還沒解除，因為還沒有做到極致。我們的目標是今年綜合 MPI（城市 + 高速綜合接管里程）做到 100 公里接管一次的能力。這個接管不是安全接管，不是說你要撞車了才接管，是用戶覺得車開得不符合體驗、不舒服的接管。到明年、后年，我們會逐漸提升至 500 公里、甚至 1000 公里以上。慢慢讓大家對智駕越來越自信、越來越依賴。

張小珺：要實現(xiàn)這樣的目標，需要儲備多少算力和數(shù)據(jù)？

郎咸朋：要達到 500 公里的綜合 MPI（城市 + 高速綜合接管里程），預(yù)計需要 2000 萬 Clips（視頻片段）的水平。如果 2000 萬 Clips 從不到 5% 的老司機去篩選，這里隱含的數(shù)據(jù)量，要達到 50 億公里甚至上百億公里的水平。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

理想汽車 CEO 李想：要么就做端到端，要么就不再做自動駕駛

相關(guān)文章

理想汽車 CEO 李想：要么就做端到端，要么就不再做自動駕駛