首頁 > 智能時(shí)代>人工智能

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

量子位 2024/5/16 23:36:37 責(zé)編：清源

評論：

斯坦福李飛飛創(chuàng)業(yè)后，首次揭秘新概念“空間智能”。這不僅是她的創(chuàng)業(yè)方向，也是指引她的“北極星”，被她認(rèn)為是“解決人工智能難題的關(guān)鍵拼圖”。

視覺化為洞察；看見成為理解；理解導(dǎo)致行動(dòng)。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

李飛飛最新 15 分鐘 TED 演講完整公開，從數(shù)億年前生命進(jìn)化的起源開始，到人類如何不滿足于自然賦予而發(fā)展人工智能，到下一步如何構(gòu)建空間智能。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

而 9 年前，正是在同一個(gè)舞臺(tái)上，李飛飛向世界介紹了剛誕生不久的 ImageNet—— 這一輪深度學(xué)習(xí)爆發(fā)的起點(diǎn)之一。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

她本人也向網(wǎng)友自我安利：如果把兩個(gè)視頻都看了，你就能對過去 10 年的計(jì)算機(jī)視覺、空間智能和 AI 有很好的了解。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

下面在不改變其原意的基礎(chǔ)上，我們對李飛飛演講內(nèi)容做整理。

空間智能，讓 AI 理解現(xiàn)實(shí)世界

生物視覺的進(jìn)化

讓我向你展示一些東西，確切地說，我將向你展示“空無一物”。

這是 5.4 億年前的世界。純粹、無盡的黑暗。它之所以黑暗，并不是因?yàn)槿鄙俟饩€。它之所以黑暗，是因?yàn)槿鄙僖曈X。

盡管陽光能夠穿透海洋表面下 1000 米，來自海底熱泉噴口的光線也能滲透到海底，充滿了生命的海底，但這些古老的水域中找不到一只眼睛。

沒有視網(wǎng)膜，沒有角膜，沒有晶狀體。所以所有這些光線，所有這些生命，都未被看見。

曾經(jīng)有一段時(shí)間，“看到”的概念還不存在。它曾經(jīng)從未被實(shí)現(xiàn)過，直到它被實(shí)現(xiàn)了。

出于某種我們才開始理解的原因，能夠感知光線的第一批生物 —— 三葉蟲出現(xiàn)了。它們是最早一批能夠感知我們習(xí)以為常的現(xiàn)實(shí)的生物。它們是最早一批發(fā)現(xiàn)除了自己之外還有其他事物存在的生物。

世界第一次充滿眾多“自我”。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

視覺能力被認(rèn)為引發(fā)了寒武紀(jì)大爆發(fā)，一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。最初是被動(dòng)體驗(yàn)，簡單讓光線進(jìn)入的行為，很快變得更加主動(dòng)，神經(jīng)系統(tǒng)開始進(jìn)化。

視覺變成了洞察力?？醋兂闪死斫?。理解導(dǎo)致了行動(dòng)。

所有這些都催生了智能。

計(jì)算機(jī)視覺的崛起

今天，我們不再滿足于自然界賦予的視覺能力。好奇心驅(qū)使我們創(chuàng)造機(jī)器，希望其視覺能力至少和我們一樣，甚至更好。

九年前，在這個(gè)舞臺(tái)上，我提交了一份關(guān)于計(jì)算機(jī)視覺的早期進(jìn)展報(bào)告。

當(dāng)時(shí)，三個(gè)強(qiáng)大的力量首次匯聚在一起：

一類稱為神經(jīng)網(wǎng)絡(luò)的算法

快速、專門的硬件，稱為圖形處理單元，或 GPU

再加上大數(shù)據(jù)，比如我的實(shí)驗(yàn)室花數(shù)年時(shí)間整理的 1500 萬張圖像，稱為 ImageNet。

它們共同迎來了現(xiàn)代人工智能時(shí)代。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

從那時(shí)起到現(xiàn)在，我們已經(jīng)走了相當(dāng)遠(yuǎn)。

最開始，僅僅給圖像貼上標(biāo)簽就是一個(gè)重大突破，但算法的速度和準(zhǔn)確性迅速提高。

由我的實(shí)驗(yàn)室主辦的年度 ImageNet 挑戰(zhàn)賽衡量了這一進(jìn)展。在這張圖表中，可以看到每年模型能力的提高，和其中一些里程碑模型。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

我們更進(jìn)一步，創(chuàng)建了能夠分割視覺對象或預(yù)測它們之間動(dòng)態(tài)關(guān)系的算法，這些工作是由我的學(xué)生和合作者完成的。

還有更多。

回想上次演講我展示的第一個(gè)計(jì)算機(jī)視覺算法，AI 可以用人類的自然語言描述一張照片。那是我和聰明的學(xué)生 Andrej Karpathy 一起完成的工作。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

當(dāng)時(shí)，我大膽地說：“Andrej，我們能讓計(jì)算機(jī)做相反的事情嗎？”Andrej 笑著說：“哈哈，那是不可能的?！?/p>

好吧，正如您今天看到的，不可能已經(jīng)變得可能。

這要?dú)w功于一系列擴(kuò)散模型，為當(dāng)今的生成式 AI 算法提供動(dòng)力，可以將人類的提示詞轉(zhuǎn)化為照片和視頻，創(chuàng)造出全新的事物。

你們中許多人已經(jīng)看到了 OpenAI 的 Sora，最近取得令人印象深刻的成果。不過，早在幾個(gè)月前，在沒有大量 GPU 的情況下，我的學(xué)生和合作者們就開發(fā)出了一個(gè)名為 Walt 的 AI 視頻生成模型。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

△Walt 發(fā)表于 2023 年 12 月

這里還有改進(jìn)的空間，看看那只貓的眼睛，它在波浪下從未被弄濕，好一個(gè)災(zāi)～難～（cat-astrophe）。

（諧音?？坼X！）

空間智能：僅僅看是不夠的

過去是一個(gè)序章，我們將從這些錯(cuò)誤中學(xué)習(xí)，并創(chuàng)造一個(gè)我們想象中的未來。在這個(gè)未來，我們希望 AI 盡其所能為我們做事，或幫助我們做事。

多年來，我一直在說拍照和看到和理解不是一回事。今天，我想再補(bǔ)充一點(diǎn)：僅僅看是不夠的。

看，是為了行動(dòng)和學(xué)習(xí)。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

當(dāng)我們在 3D 時(shí)空中采取行動(dòng)時(shí)，我們學(xué)習(xí)，我們學(xué)會(huì)更好地看，更好地做事。大自然通過“空間智能”創(chuàng)造了一個(gè)看和行動(dòng)的良性循環(huán)。

為了展示空間智能是什么，請看這張照片。如果你有想要做點(diǎn)什么的沖動(dòng)，就舉起手。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

在一剎那，你的大腦觀察了這個(gè)杯子的幾何形狀，它在 3D 空間中的位置，它與桌子、貓和所有其他物體的關(guān)系，而且你可以預(yù)測接下來會(huì)發(fā)生什么。

行動(dòng)的沖動(dòng)是所有具有空間智能的生物固有的，它將感知與行動(dòng)聯(lián)系起來。

如果我們想讓 AI 超越當(dāng)前能力，我們不僅想要能夠看到和說話的 AI，我們想要能夠行動(dòng)的 AI。

事實(shí)上，我們正在取得令人興奮的進(jìn)展。

空間智能的最新里程碑是教計(jì)算機(jī)看到、學(xué)習(xí)、行動(dòng)，并學(xué)習(xí)看到和行動(dòng)得更好。

而這并不容易。

大自然花費(fèi)了數(shù)百萬年時(shí)間進(jìn)化出空間智能，眼睛捕捉光線，將 2D 圖像投射到視網(wǎng)膜上，大腦將這些數(shù)據(jù)轉(zhuǎn)換成 3D 信息。

直到最近，一群來自谷歌的研究人員才開發(fā)出一種算法，將一組照片轉(zhuǎn)換成 3D 空間。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

我的學(xué)生和合作者們更進(jìn)一步，創(chuàng)建了一個(gè)將單個(gè)圖像變成 3D 形狀的算法。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

密歇根大學(xué)的一組研究人員找到了一種方法，將句子轉(zhuǎn)換成 3D 房間布局。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

我在斯坦福大學(xué)的同事和他的學(xué)生們開發(fā)了一種算法，可以從單個(gè)圖像生成無限可能的空間，供觀眾探索。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

這些就是未來可能性的的原型。在這個(gè)可能性中，人類可以將我們的整個(gè)世界轉(zhuǎn)化為數(shù)字形式，并模擬其豐富和細(xì)微之處。

大自然在我們每個(gè)人的頭腦中隱性地做了什么，空間智能技術(shù)有望能為我們的集體意識(shí)（collective consciousness）做同樣的事情。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

隨著空間智能的加速進(jìn)步，一個(gè)新時(shí)代在這個(gè)良性循環(huán)中正在我們眼前展開。這種循環(huán)正在催化機(jī)器人學(xué)習(xí)，這是任何需要理解和與 3D 世界互動(dòng)的具身智能系統(tǒng)的關(guān)鍵組成部分。

十年前，我的實(shí)驗(yàn)室的 ImageNet 使數(shù)百萬張高質(zhì)量照片的數(shù)據(jù)庫成為可能，幫助訓(xùn)練計(jì)算機(jī)視覺。

今天，我們正在做類似的事情，訓(xùn)練計(jì)算機(jī)和機(jī)器人如何在 3D 世界中行動(dòng)。

這次我們不是收集靜態(tài)圖像，而是開發(fā)由 3D 空間模型驅(qū)動(dòng)的模擬環(huán)境，以便計(jì)算機(jī)可以學(xué)習(xí)行動(dòng)的無限可能性。

你剛剛看到的是教導(dǎo)我們的機(jī)器人的一小部分例子，這是一個(gè)由我的實(shí)驗(yàn)室領(lǐng)導(dǎo)的項(xiàng)目，稱為 Behavior。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

我們也在機(jī)器人語言智能方面取得了令人興奮的進(jìn)展。

使用基于大型語言模型的輸入，我學(xué)生以及合作者是第一批展示機(jī)械臂可以根據(jù)口頭指令執(zhí)行各種任務(wù)的團(tuán)隊(duì)之一。

比如打開這個(gè)抽屜或拔掉電話線。或者制作三明治，使用面包、生菜、西紅柿，甚至為用戶放一張餐巾紙。通常情況下我希望三明治更豐富一些，但這是一個(gè)好的起點(diǎn)。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

空間智能的應(yīng)用前景

在古老時(shí)代的原始海洋中，能夠看到和感知環(huán)境的能力引發(fā)了與其他生命形式互動(dòng)的寒武紀(jì)大爆發(fā)。

今天，那道光正在達(dá)到數(shù)字思維。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

空間智能不僅允許機(jī)器與彼此互動(dòng)，而且還能與人類，以及真實(shí)或虛擬的 3D 世界互動(dòng)。

隨著這個(gè)未來成形，它將對許多生命產(chǎn)生深遠(yuǎn)的影響。

讓我們以醫(yī)療保健為例。在過去的十年中，我的實(shí)驗(yàn)室一直在做初步努力，將 AI 應(yīng)用于解決影響患者結(jié)果和醫(yī)療人員疲勞的挑戰(zhàn)。

與來自斯坦福醫(yī)學(xué)院的合作者和其他合作醫(yī)院一起，我們正在試驗(yàn)一些智能傳感器，可以檢測到臨床醫(yī)生是否在沒有正確洗手的情況下進(jìn)入病人房間?；蚋櫴中g(shù)器械，或在病人身體面臨風(fēng)險(xiǎn)，如跌倒時(shí)提醒護(hù)理團(tuán)隊(duì)。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

我們認(rèn)為這些技術(shù)是一種環(huán)境智能，就像額外的眼睛。

但我更希望為我們的患者、臨床醫(yī)生和護(hù)理人員提供更多的互動(dòng)幫助，他們迫切需要額外的一雙手。

想象一下，一個(gè)自主機(jī)器人在護(hù)理人員專注于病人的同時(shí)運(yùn)輸醫(yī)療用品，或者用增強(qiáng)現(xiàn)實(shí)技術(shù)，引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快、更少侵入性的操作。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

再想象一下，嚴(yán)重癱瘓的病人可以用他們的思想控制機(jī)器人。沒錯(cuò)，用腦電波來執(zhí)行你和我習(xí)以為常的日常任務(wù)。

這是最近我的實(shí)驗(yàn)室進(jìn)行的一項(xiàng)試點(diǎn)研究。在這個(gè)視頻中，機(jī)器人手臂僅通過大腦電信號控制，正在烹飪一頓日本壽喜鍋餐。其中信號非侵入性地通過 EEG 帽收集。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

五億年前，視覺的出現(xiàn)顛覆了黑暗的世界，引發(fā)了最深刻的進(jìn)化過程：動(dòng)物世界的智能發(fā)展。

過去十年 AI 的進(jìn)步同樣令人驚嘆。但我相信，直到我們?yōu)橛?jì)算機(jī)和機(jī)器人賦予空間智能，就像大自然對我們所有人所做的那樣，這場數(shù)字寒武紀(jì)大爆發(fā)的全部潛力才會(huì)完全展現(xiàn)。

這是一個(gè)激動(dòng)人心的時(shí)刻，教我們的數(shù)字伙伴學(xué)會(huì)推理，和與我們稱之為家的這個(gè)美麗的 3D 空間互動(dòng)，同時(shí)也創(chuàng)造更多我們可以探索的新世界。

實(shí)現(xiàn)這一未來并不容易，它要求我們所有人深思熟慮，開發(fā)始終以人為本的技術(shù)。

但如果我們做得好，由空間智能驅(qū)動(dòng)的計(jì)算機(jī)和機(jī)器人不僅會(huì)成為有用的工具，還會(huì)成為值得信賴的伙伴，在尊重個(gè)人尊嚴(yán)的同時(shí)，提高我們的生產(chǎn)力、增強(qiáng)我們的人性，提升我們的集體繁榮。

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

在所有未來中我最興奮的，是一個(gè) AI 變得更有感知、有洞察和空間意識(shí)，并與我們一道追求創(chuàng)造更好的世界的方法。

（全文完）

視頻回放：

https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript

參考鏈接：

[1]https://x.com/drfeifei/status/1790811274684584257

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

空間智能，讓 AI 理解現(xiàn)實(shí)世界

生物視覺的進(jìn)化

計(jì)算機(jī)視覺的崛起

空間智能：僅僅看是不夠的

空間智能的應(yīng)用前景

相關(guān)文章

李飛飛揭秘創(chuàng)業(yè)方向“空間智能”：視覺化為洞察，看見成為理解，理解導(dǎo)致行動(dòng)

空間智能，讓 AI 理解現(xiàn)實(shí)世界