寒氣沒有傳到每個(gè)人,至少寒氣已經(jīng)傳到每個(gè)行業(yè)。自動(dòng)駕駛作為汽車智能化的核心技術(shù),一邊是燒錢的探索前進(jìn),一邊是生存的產(chǎn)品量產(chǎn)。無論是向左還是向右,對(duì)于自動(dòng)駕駛行業(yè)來說都是挑戰(zhàn)與機(jī)遇并存。
自動(dòng)駕駛的發(fā)展并不是偶然,而是社會(huì)發(fā)展的必經(jīng)歷程,雖然歷史不會(huì)重現(xiàn),但是歷史發(fā)展的規(guī)律卻總是驚人的相似。從 1956 年達(dá)特茅斯提出人工智能概念以后到 21 世紀(jì)初開展探索的自動(dòng)駕駛技術(shù),時(shí)至今日無論是人工智能技術(shù)還是汽車形態(tài)都發(fā)生了翻天覆地的變化?;ヂ?lián)網(wǎng)行業(yè)也好汽車行業(yè)也罷,數(shù)據(jù)、算法、算力成為驅(qū)動(dòng)智能時(shí)代產(chǎn)業(yè)前進(jìn)的新動(dòng)力,不斷增加的數(shù)據(jù)、不斷優(yōu)化的算法加上不斷進(jìn)化的半導(dǎo)體算力,應(yīng)用而生的超級(jí)數(shù)據(jù)中心、算法大模型和算力暴力,似乎在一個(gè)無限的空間中,存在一個(gè)基于硅基的智能會(huì)超越基于碳基智能的預(yù)測(cè)函數(shù)。遺憾的是,這個(gè)預(yù)測(cè)函數(shù)是發(fā)散而不收斂的。
當(dāng)大家解決一個(gè)問題后,必定會(huì)引發(fā)出一個(gè)新的問題,在數(shù)據(jù)、算力和算法的推動(dòng)下,智能化取得了一定的成果,方便快捷的外賣派送,汽車的主動(dòng)安全性能的提升、熄燈工廠的建立解放勞動(dòng)力等等,每一點(diǎn)的進(jìn)步需要付出的代價(jià)實(shí)質(zhì)上也是數(shù)據(jù)處理的代價(jià)。有個(gè)比較有意思的問題,數(shù)據(jù)能否能代表真實(shí)的事物?如果不能,那么如何讓機(jī)器認(rèn)知物理世界?如果機(jī)器不能認(rèn)識(shí)人類物理世界,那么機(jī)器的世界如何建立?
縱觀人工智能的發(fā)展歷程,興起于符號(hào)邏輯推理,興盛于統(tǒng)計(jì)與機(jī)器學(xué)習(xí)到如今的深度學(xué)習(xí),究其根本人工智能研究的不外乎是物理世界的特征數(shù)據(jù)提取和虛擬世界的模型訓(xùn)練,也就是說并不是所有的數(shù)據(jù)都能用,并不是所有的數(shù)據(jù)都存在。掩藏在數(shù)據(jù)、算法、算力背后的是人工智技術(shù)發(fā)展的內(nèi)在變化。深度學(xué)習(xí)作為人工智能現(xiàn)階段的新浪潮,其技術(shù)及背后蘊(yùn)藏的思維方式已成為人工智能技術(shù)從業(yè)者、項(xiàng)目管理者、戰(zhàn)略規(guī)劃決策者必備的基礎(chǔ)能力和認(rèn)知方式。深度學(xué)習(xí)作為第三輪人工智能興起和繁榮的引擎,無論從 AI 技術(shù)發(fā)展還是產(chǎn)業(yè)應(yīng)用來看都處于核心位置,而自動(dòng)駕駛,尤其是感知識(shí)別部分將成為深度學(xué)習(xí)的一個(gè)應(yīng)用平臺(tái),起到承上(上層應(yīng)用)啟下(底層芯片)的腰部連接作用。
自動(dòng)駕駛的研究和自然語(yǔ)言處理有相似的歷程,從最開始的知識(shí)規(guī)則驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng),本質(zhì)上是人類對(duì)客觀世界的認(rèn)知的變化。數(shù)據(jù)驅(qū)動(dòng)的研發(fā)模式即為在方法論確定的情況下,系統(tǒng)的性能優(yōu)化依靠可用數(shù)據(jù)的量來實(shí)現(xiàn),也就是系統(tǒng)的優(yōu)劣勢(shì)和數(shù)據(jù)的規(guī)模強(qiáng)相關(guān)。這個(gè)數(shù)據(jù)規(guī)模不僅僅是數(shù)據(jù)的本身,更重要的是數(shù)據(jù)的處理能力,尤其是在地緣政治緊張,法律監(jiān)管措施的異同以及文化背景差異的情況下,數(shù)據(jù)能力既是數(shù)據(jù)處理技術(shù)硬能力也是企業(yè)軟實(shí)力的體現(xiàn)。當(dāng)前,不管是工業(yè)界的自動(dòng)駕駛算法還是互聯(lián)網(wǎng)界的推薦、搜索、語(yǔ)音識(shí)別算法全都聚焦在提升數(shù)據(jù)的質(zhì)量與模型參數(shù)規(guī)模,本質(zhì)上來講還是深挖現(xiàn)有技術(shù)路徑發(fā)展?jié)摿?,通過大規(guī)模預(yù)訓(xùn)練模型、自主生成數(shù)據(jù)、依托知識(shí)圖譜常識(shí)關(guān)系、利用多源數(shù)據(jù)等方式彌補(bǔ)深度學(xué)習(xí)在通用泛化性、小數(shù)據(jù)、可解釋性、自主學(xué)習(xí)能力等方面局限性,不斷提升解決問題的水平和深度。
算法模型的優(yōu)化依賴數(shù)據(jù),數(shù)據(jù)在算法模型中凸顯價(jià)值,兩者之間既是相互關(guān)系又是相互獨(dú)立,這就很容易出現(xiàn)幾個(gè)問題。
第一個(gè)是數(shù)據(jù)規(guī)模問題,規(guī)模的大小只是一個(gè)相對(duì)的概念,數(shù)據(jù)量的需求是不收斂的,軟件算法的開發(fā)成本轉(zhuǎn)移到數(shù)據(jù)處理的成本,隨著量的增加,數(shù)據(jù)的傳輸、存儲(chǔ)、冷熱處理成本會(huì)不斷增加,表面上看半導(dǎo)體的工藝技術(shù)在提升,處理數(shù)據(jù)的能力在增強(qiáng),軟件算法的效率和成本呈現(xiàn)反比的趨勢(shì),但是數(shù)據(jù)的成本反而在增加;
第二個(gè)是數(shù)據(jù)的合規(guī)問題。曾經(jīng)有一位互聯(lián)網(wǎng)的大佬說“中國(guó)人更容易接受自己的面孔、聲音、及購(gòu)物選擇被記錄和數(shù)字化,更愿意用個(gè)人的信息來?yè)Q取便利”。不知道這位大佬是從哪一個(gè)角度得出此結(jié)論,但是可以看出數(shù)據(jù)合規(guī)與每個(gè)人息息相關(guān)并且數(shù)據(jù)與產(chǎn)品之間存在強(qiáng)關(guān)聯(lián)性。關(guān)于自動(dòng)駕駛的權(quán)責(zé)問題、道德倫理問題,算法不可解釋性等一系列的挑戰(zhàn),其實(shí)都可以看成是數(shù)據(jù)合規(guī)問題。數(shù)據(jù)合規(guī)是在法律法規(guī)與產(chǎn)品便利之間的平衡關(guān)系,是確保產(chǎn)品公平性的一種措施,所以這個(gè)過程的必定是一個(gè)動(dòng)態(tài)過程,數(shù)據(jù)不止,合規(guī)不息;
第三個(gè)問題,數(shù)據(jù)漩渦問題?,F(xiàn)在的企業(yè)家家戶戶都在或多或少,千方百計(jì)地采集數(shù)據(jù)。自動(dòng)駕駛公司一般是雙管齊下,一邊實(shí)際的物理場(chǎng)景數(shù)據(jù),一邊進(jìn)行虛擬仿真數(shù)據(jù)積累,背后最開心的莫過于云服務(wù)商和半導(dǎo)體商。雖然行內(nèi)都在倡議數(shù)據(jù)的互聯(lián)互通,實(shí)際上老死不相往來,畢竟誰(shuí)都不想把資源池的蛋糕分享給別人;
第四個(gè)問題,基準(zhǔn)數(shù)據(jù)的缺失。產(chǎn)業(yè)界一般都是在不停地采集物理世界的數(shù)據(jù),用于模型的訓(xùn)練。自動(dòng)駕駛行業(yè)不停的進(jìn)行測(cè)試和仿真積累數(shù)據(jù)里程,面臨共同的問題是基準(zhǔn)數(shù)據(jù)集的缺少,這也導(dǎo)致新模型的效果提升會(huì)是單方面的,出現(xiàn)既是裁判又是球員的現(xiàn)象,一旦部署到產(chǎn)品端就會(huì)不斷出現(xiàn)問題。在高級(jí)自動(dòng)駕駛尚未普及的階段,零星發(fā)生的事故與其說軟件算法的問題,不如說是訓(xùn)練數(shù)據(jù)出現(xiàn)了問題。
針對(duì)這種情況,行業(yè)內(nèi)又利用了一個(gè)新技術(shù)叫遠(yuǎn)程升級(jí),以此來優(yōu)化軟件算法實(shí)現(xiàn)數(shù)據(jù)的商業(yè)閉環(huán)。但是,這種方式真的對(duì)消費(fèi)者公平友好嗎?這無形中讓消費(fèi)者陷入一種不確定的盲盒狀態(tài)。
達(dá)爾文的生物進(jìn)化論告訴我們物競(jìng)天擇,適者生存。世界教育我們?nèi)ミm應(yīng)社會(huì),并沒有教我們?nèi)ジ脑焐鐣?huì)。從半導(dǎo)體行業(yè)的發(fā)展趨勢(shì)看,在 20 世紀(jì) 40 年代誕生,起初芯片公司都具有設(shè)計(jì)、制造、封裝和測(cè)試,隨著芯片產(chǎn)業(yè)的發(fā)展速度提升,芯片公司開始逐漸分化,向?qū)6目v深發(fā)展,從而也形成行業(yè)的上下游產(chǎn)業(yè)鏈。目前算法模型的體積呈現(xiàn)指數(shù)級(jí)增長(zhǎng),以達(dá)摩院的 M6 大模型為例,模型參數(shù)量達(dá)到 10 萬億。單臺(tái)服務(wù)器,以英偉達(dá) V100 為例,單卡顯存 32GB,算力 125Tera FLOPS,難以滿足千億級(jí)參數(shù)模型的訓(xùn)練需求,模型的體積增長(zhǎng)反過來對(duì)數(shù)據(jù)的讀寫、存儲(chǔ)、訓(xùn)練等方面存在巨大壓力。自動(dòng)駕駛行業(yè),雖然產(chǎn)業(yè)鏈呈環(huán)狀,未來伴隨著產(chǎn)品的成熟度提高,大概率也會(huì)成為鏈狀形成穩(wěn)定的產(chǎn)業(yè)鏈,畢竟人類的大腦更加擅長(zhǎng)于串行處理信息。移動(dòng)和互聯(lián)網(wǎng)的結(jié)合賦予智能汽車不一樣的屬性,同時(shí)也是數(shù)據(jù)和模型的集散和應(yīng)用中心。因此,面向高級(jí)自動(dòng)駕駛的數(shù)據(jù)和模型會(huì)出現(xiàn)分離的狀態(tài),企業(yè)向縱深發(fā)展成為專而精的平臺(tái)。數(shù)據(jù)處理公司專業(yè)針對(duì)數(shù)據(jù)的問題,Data As Service,模型訓(xùn)練公司專攻模型和工具套件的開發(fā),Model As Service,當(dāng)業(yè)務(wù)發(fā)展到一定的規(guī)模,規(guī)模就是最大的技術(shù)壁壘。有人會(huì)說,小孩子才做選擇,大人一般數(shù)據(jù)和模型全都要。全都要的模式在產(chǎn)業(yè)發(fā)展前期尚可,在產(chǎn)業(yè)進(jìn)入成熟期后分化的趨勢(shì)會(huì)成為主流,如果不調(diào)整策略準(zhǔn)確定位會(huì)陷入顧此失彼的境地,一直處于打補(bǔ)丁的狀態(tài),產(chǎn)品的競(jìng)爭(zhēng)無從談起。
從互聯(lián)網(wǎng)行業(yè)來看,數(shù)據(jù)和模型的分離趨趨勢(shì)已經(jīng)顯現(xiàn)。互聯(lián)網(wǎng)行業(yè)對(duì)于個(gè)人隱私數(shù)據(jù)的敏感性,從算法層面和數(shù)據(jù)層面不斷的進(jìn)化,小數(shù)據(jù)訓(xùn)練,聯(lián)邦學(xué)習(xí)、隱私計(jì)算等等方法正在走向行業(yè)的前臺(tái)。相比于互聯(lián)網(wǎng)以個(gè)人數(shù)據(jù)為主,自動(dòng)駕駛現(xiàn)階段的數(shù)據(jù)以 B 端為主,比如場(chǎng)景、道路、地域等等,兩者之間的在監(jiān)管和安全方面有較大的區(qū)別。未來隨著智能化的等級(jí)提升,汽車智能化和用戶體驗(yàn)的提升一定會(huì)依賴個(gè)人數(shù)據(jù),多數(shù)據(jù)源的融合將奠定智能社會(huì)的發(fā)展。
本文來自微信公眾號(hào):汽車觀察者聯(lián)盟 (ID:gh_6caf2b9784b6),作者:十字甫
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。