斯坦福李飛飛創(chuàng)業(yè)后,首次揭秘新概念“空間智能”。這不僅是她的創(chuàng)業(yè)方向,也是指引她的“北極星”,被她認(rèn)為是“解決人工智能難題的關(guān)鍵拼圖”。
視覺化為洞察;看見成為理解;理解導(dǎo)致行動(dòng)。
李飛飛最新 15 分鐘 TED 演講完整公開,從數(shù)億年前生命進(jìn)化的起源開始,到人類如何不滿足于自然賦予而發(fā)展人工智能,到下一步如何構(gòu)建空間智能。
而 9 年前,正是在同一個(gè)舞臺(tái)上,李飛飛向世界介紹了剛誕生不久的 ImageNet—— 這一輪深度學(xué)習(xí)爆發(fā)的起點(diǎn)之一。
她本人也向網(wǎng)友自我安利:如果把兩個(gè)視頻都看了,你就能對過去 10 年的計(jì)算機(jī)視覺、空間智能和 AI 有很好的了解。
下面在不改變其原意的基礎(chǔ)上,我們對李飛飛演講內(nèi)容做整理。
空間智能,讓 AI 理解現(xiàn)實(shí)世界
生物視覺的進(jìn)化
讓我向你展示一些東西,確切地說,我將向你展示“空無一物”。
這是 5.4 億年前的世界。純粹、無盡的黑暗。它之所以黑暗,并不是因?yàn)槿鄙俟饩€。它之所以黑暗,是因?yàn)槿鄙僖曈X。
盡管陽光能夠穿透海洋表面下 1000 米,來自海底熱泉噴口的光線也能滲透到海底,充滿了生命的海底,但這些古老的水域中找不到一只眼睛。
沒有視網(wǎng)膜,沒有角膜,沒有晶狀體。所以所有這些光線,所有這些生命,都未被看見。
曾經(jīng)有一段時(shí)間,“看到”的概念還不存在。它曾經(jīng)從未被實(shí)現(xiàn)過,直到它被實(shí)現(xiàn)了。
出于某種我們才開始理解的原因,能夠感知光線的第一批生物 —— 三葉蟲出現(xiàn)了。它們是最早一批能夠感知我們習(xí)以為常的現(xiàn)實(shí)的生物。它們是最早一批發(fā)現(xiàn)除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多“自我”。
視覺能力被認(rèn)為引發(fā)了寒武紀(jì)大爆發(fā),一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。最初是被動(dòng)體驗(yàn),簡單讓光線進(jìn)入的行為,很快變得更加主動(dòng),神經(jīng)系統(tǒng)開始進(jìn)化。
視覺變成了洞察力??醋兂闪死斫?。理解導(dǎo)致了行動(dòng)。
所有這些都催生了智能。
計(jì)算機(jī)視覺的崛起
今天,我們不再滿足于自然界賦予的視覺能力。好奇心驅(qū)使我們創(chuàng)造機(jī)器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個(gè)舞臺(tái)上,我提交了一份關(guān)于計(jì)算機(jī)視覺的早期進(jìn)展報(bào)告。
當(dāng)時(shí),三個(gè)強(qiáng)大的力量首次匯聚在一起:
一類稱為神經(jīng)網(wǎng)絡(luò)的算法
快速、專門的硬件,稱為圖形處理單元,或 GPU
再加上大數(shù)據(jù),比如我的實(shí)驗(yàn)室花數(shù)年時(shí)間整理的 1500 萬張圖像,稱為 ImageNet。
它們共同迎來了現(xiàn)代人工智能時(shí)代。
從那時(shí)起到現(xiàn)在,我們已經(jīng)走了相當(dāng)遠(yuǎn)。
最開始,僅僅給圖像貼上標(biāo)簽就是一個(gè)重大突破,但算法的速度和準(zhǔn)確性迅速提高。
由我的實(shí)驗(yàn)室主辦的年度 ImageNet 挑戰(zhàn)賽衡量了這一進(jìn)展。在這張圖表中,可以看到每年模型能力的提高,和其中一些里程碑模型。
我們更進(jìn)一步,創(chuàng)建了能夠分割視覺對象或預(yù)測它們之間動(dòng)態(tài)關(guān)系的算法,這些工作是由我的學(xué)生和合作者完成的。
還有更多。
回想上次演講我展示的第一個(gè)計(jì)算機(jī)視覺算法,AI 可以用人類的自然語言描述一張照片。那是我和聰明的學(xué)生 Andrej Karpathy 一起完成的工作。
當(dāng)時(shí),我大膽地說:“Andrej,我們能讓計(jì)算機(jī)做相反的事情嗎?”Andrej 笑著說:“哈哈,那是不可能的?!?/p>
好吧,正如您今天看到的,不可能已經(jīng)變得可能。
這要?dú)w功于一系列擴(kuò)散模型,為當(dāng)今的生成式 AI 算法提供動(dòng)力,可以將人類的提示詞轉(zhuǎn)化為照片和視頻,創(chuàng)造出全新的事物。
你們中許多人已經(jīng)看到了 OpenAI 的 Sora,最近取得令人印象深刻的成果。不過,早在幾個(gè)月前,在沒有大量 GPU 的情況下,我的學(xué)生和合作者們就開發(fā)出了一個(gè)名為 Walt 的 AI 視頻生成模型。
△Walt 發(fā)表于 2023 年 12 月
這里還有改進(jìn)的空間,看看那只貓的眼睛,它在波浪下從未被弄濕,好一個(gè)災(zāi)~難~(cat-astrophe)。
(諧音??坼X!)
空間智能:僅僅看是不夠的
過去是一個(gè)序章,我們將從這些錯(cuò)誤中學(xué)習(xí),并創(chuàng)造一個(gè)我們想象中的未來。在這個(gè)未來,我們希望 AI 盡其所能為我們做事,或幫助我們做事。
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補(bǔ)充一點(diǎn):僅僅看是不夠的。
看,是為了行動(dòng)和學(xué)習(xí)。
當(dāng)我們在 3D 時(shí)空中采取行動(dòng)時(shí),我們學(xué)習(xí),我們學(xué)會(huì)更好地看,更好地做事。大自然通過“空間智能”創(chuàng)造了一個(gè)看和行動(dòng)的良性循環(huán)。
為了展示空間智能是什么,請看這張照片。如果你有想要做點(diǎn)什么的沖動(dòng),就舉起手。
在一剎那,你的大腦觀察了這個(gè)杯子的幾何形狀,它在 3D 空間中的位置,它與桌子、貓和所有其他物體的關(guān)系,而且你可以預(yù)測接下來會(huì)發(fā)生什么。
行動(dòng)的沖動(dòng)是所有具有空間智能的生物固有的,它將感知與行動(dòng)聯(lián)系起來。
如果我們想讓 AI 超越當(dāng)前能力,我們不僅想要能夠看到和說話的 AI,我們想要能夠行動(dòng)的 AI。
事實(shí)上,我們正在取得令人興奮的進(jìn)展。
空間智能的最新里程碑是教計(jì)算機(jī)看到、學(xué)習(xí)、行動(dòng),并學(xué)習(xí)看到和行動(dòng)得更好。
而這并不容易。
大自然花費(fèi)了數(shù)百萬年時(shí)間進(jìn)化出空間智能,眼睛捕捉光線,將 2D 圖像投射到視網(wǎng)膜上,大腦將這些數(shù)據(jù)轉(zhuǎn)換成 3D 信息。
直到最近,一群來自谷歌的研究人員才開發(fā)出一種算法,將一組照片轉(zhuǎn)換成 3D 空間。
我的學(xué)生和合作者們更進(jìn)一步,創(chuàng)建了一個(gè)將單個(gè)圖像變成 3D 形狀的算法。
密歇根大學(xué)的一組研究人員找到了一種方法,將句子轉(zhuǎn)換成 3D 房間布局。
我在斯坦福大學(xué)的同事和他的學(xué)生們開發(fā)了一種算法,可以從單個(gè)圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的的原型。在這個(gè)可能性中,人類可以將我們的整個(gè)世界轉(zhuǎn)化為數(shù)字形式,并模擬其豐富和細(xì)微之處。
大自然在我們每個(gè)人的頭腦中隱性地做了什么,空間智能技術(shù)有望能為我們的集體意識(shí)(collective consciousness)做同樣的事情。
隨著空間智能的加速進(jìn)步,一個(gè)新時(shí)代在這個(gè)良性循環(huán)中正在我們眼前展開。這種循環(huán)正在催化機(jī)器人學(xué)習(xí),這是任何需要理解和與 3D 世界互動(dòng)的具身智能系統(tǒng)的關(guān)鍵組成部分。
十年前,我的實(shí)驗(yàn)室的 ImageNet 使數(shù)百萬張高質(zhì)量照片的數(shù)據(jù)庫成為可能,幫助訓(xùn)練計(jì)算機(jī)視覺。
今天,我們正在做類似的事情,訓(xùn)練計(jì)算機(jī)和機(jī)器人如何在 3D 世界中行動(dòng)。
這次我們不是收集靜態(tài)圖像,而是開發(fā)由 3D 空間模型驅(qū)動(dòng)的模擬環(huán)境,以便計(jì)算機(jī)可以學(xué)習(xí)行動(dòng)的無限可能性。
你剛剛看到的是教導(dǎo)我們的機(jī)器人的一小部分例子,這是一個(gè)由我的實(shí)驗(yàn)室領(lǐng)導(dǎo)的項(xiàng)目,稱為 Behavior。
我們也在機(jī)器人語言智能方面取得了令人興奮的進(jìn)展。
使用基于大型語言模型的輸入,我學(xué)生以及合作者是第一批展示機(jī)械臂可以根據(jù)口頭指令執(zhí)行各種任務(wù)的團(tuán)隊(duì)之一。
比如打開這個(gè)抽屜或拔掉電話線。或者制作三明治,使用面包、生菜、西紅柿,甚至為用戶放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個(gè)好的起點(diǎn)。
空間智能的應(yīng)用前景
在古老時(shí)代的原始海洋中,能夠看到和感知環(huán)境的能力引發(fā)了與其他生命形式互動(dòng)的寒武紀(jì)大爆發(fā)。
今天,那道光正在達(dá)到數(shù)字思維。
空間智能不僅允許機(jī)器與彼此互動(dòng),而且還能與人類,以及真實(shí)或虛擬的 3D 世界互動(dòng)。
隨著這個(gè)未來成形,它將對許多生命產(chǎn)生深遠(yuǎn)的影響。
讓我們以醫(yī)療保健為例。在過去的十年中,我的實(shí)驗(yàn)室一直在做初步努力,將 AI 應(yīng)用于解決影響患者結(jié)果和醫(yī)療人員疲勞的挑戰(zhàn)。
與來自斯坦福醫(yī)學(xué)院的合作者和其他合作醫(yī)院一起,我們正在試驗(yàn)一些智能傳感器,可以檢測到臨床醫(yī)生是否在沒有正確洗手的情況下進(jìn)入病人房間?;蚋櫴中g(shù)器械,或在病人身體面臨風(fēng)險(xiǎn),如跌倒時(shí)提醒護(hù)理團(tuán)隊(duì)。
我們認(rèn)為這些技術(shù)是一種環(huán)境智能,就像額外的眼睛。
但我更希望為我們的患者、臨床醫(yī)生和護(hù)理人員提供更多的互動(dòng)幫助,他們迫切需要額外的一雙手。
想象一下,一個(gè)自主機(jī)器人在護(hù)理人員專注于病人的同時(shí)運(yùn)輸醫(yī)療用品,或者用增強(qiáng)現(xiàn)實(shí)技術(shù),引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快、更少侵入性的操作。
再想象一下,嚴(yán)重癱瘓的病人可以用他們的思想控制機(jī)器人。沒錯(cuò),用腦電波來執(zhí)行你和我習(xí)以為常的日常任務(wù)。
這是最近我的實(shí)驗(yàn)室進(jìn)行的一項(xiàng)試點(diǎn)研究。在這個(gè)視頻中,機(jī)器人手臂僅通過大腦電信號控制,正在烹飪一頓日本壽喜鍋餐。其中信號非侵入性地通過 EEG 帽收集。
五億年前,視覺的出現(xiàn)顛覆了黑暗的世界,引發(fā)了最深刻的進(jìn)化過程:動(dòng)物世界的智能發(fā)展。
過去十年 AI 的進(jìn)步同樣令人驚嘆。但我相信,直到我們?yōu)橛?jì)算機(jī)和機(jī)器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數(shù)字寒武紀(jì)大爆發(fā)的全部潛力才會(huì)完全展現(xiàn)。
這是一個(gè)激動(dòng)人心的時(shí)刻,教我們的數(shù)字伙伴學(xué)會(huì)推理,和與我們稱之為家的這個(gè)美麗的 3D 空間互動(dòng),同時(shí)也創(chuàng)造更多我們可以探索的新世界。
實(shí)現(xiàn)這一未來并不容易,它要求我們所有人深思熟慮,開發(fā)始終以人為本的技術(shù)。
但如果我們做得好,由空間智能驅(qū)動(dòng)的計(jì)算機(jī)和機(jī)器人不僅會(huì)成為有用的工具,還會(huì)成為值得信賴的伙伴,在尊重個(gè)人尊嚴(yán)的同時(shí),提高我們的生產(chǎn)力、增強(qiáng)我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個(gè) AI 變得更有感知、有洞察和空間意識(shí),并與我們一道追求創(chuàng)造更好的世界的方法。
(全文完)
視頻回放:
https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
參考鏈接:
[1]https://x.com/drfeifei/status/1790811274684584257
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。