就在剛剛,李飛飛空間智能首個項目突然發(fā)布:
僅憑借 1 張圖,就能生成一個 3D 游戲世界的 AI 系統(tǒng)!
重點在于,生成的 3D 世界具有交互性。
能夠像玩游戲那樣,自由地移動相機來探索這個 3D 世界,淺景深、希區(qū)柯克變焦等操作均可行。
隨便輸入一張圖:
除了這張圖本體,可探索的 3D 世界里,所有東西都是 AI 生成的:
這些場景在瀏覽器中實時渲染,配備了可控的攝像機效果和可調(diào)節(jié)的模擬景深(DoF)。
你甚至可以改變其中物體顏色,動態(tài)調(diào)整背景光影,在場景中插入其他對象。
此外,之前大多數(shù)生成模型預測的是像素,而這個 AI 系統(tǒng)直接預測 3D 場景。
所以場景在你移開視線再回來時不會發(fā)生變化,并且遵循基本的 3D 幾何物理規(guī)則。
網(wǎng)友們直接炸開鍋,評論區(qū)“難以置信”一詞直接刷屏。
其中不乏 Shopify 創(chuàng)始人 Tobi Lutke 等知名人士點贊:
還有不少網(wǎng)友認為這直接為 VR 打開了新世界。
官方則表示“這僅僅是 3D 原生生成 AI 未來的一個縮影”:
我們正在努力盡快將這項技術交到用戶手中!
李飛飛本人也第一時間分享了這項成果并表示:
無論怎么理論化這個想法,用語言很難描述通過一張照片或一句話生成的 3D 場景互動的體驗,希望大家喜歡。
目前候補名單申請已開啟,有內(nèi)容創(chuàng)作者已經(jīng)用上了。羨慕的口水不爭氣地從眼角落了下來。
Beyond the input image
官方博文表示,今天,World labs 邁出了通往空間智能的第一步:
發(fā)布一個從單張圖片生成 3D 世界的 AI 系統(tǒng)。
Beyond the input image, all is generated。
而且是輸入任何圖片。
而且是能夠互動的 3D 世界 —— 用戶可以通過 W / A / S / D 鍵來控制上下左右視角,或者用鼠標拖動畫面來逛這個生成的世界。
官網(wǎng)博文中放了很多個可以試玩的 demo。
這次真的推薦大家都去試玩一下,上手體驗和看視頻 or 動圖的感受非常的不一樣。
好,問題來了,這個 AI 系統(tǒng)生成的 3D 世界還有什么值得探究的細節(jié)之處?
攝影機效果
World Labs 表示,一旦生成,這個 3D 世界就會在瀏覽器中實時渲染,給人的感覺跟在看一個虛擬攝像頭似的。
而且,用戶能夠精準地控制這個攝像頭。所謂“精準控制”,有 2 種玩法,
一是能夠模擬景深效果,也就是只能清晰對焦距離相機一定距離的物體。
二是能模擬滑動變焦(Dolly Zoom),也就是電影拍攝技巧中非常經(jīng)典的希區(qū)柯克變焦。
它的特點是“鏡頭中的主體大小不變,而背景大小改變”。
很多驢友去西藏、新疆玩兒的時候都希望用希區(qū)柯克變焦拍視頻,有很強的視覺沖擊力。在 World Labs 展示中,效果如下(不過在這個玩法里,沒辦法控制視角):
3D 效果
World Labs 表示,大多數(shù)生成模型預測的都是像素,與它們不同,咱這個 AI 預測的是 3D 場景。
官方博文羅列了三點好處:
第一,持久現(xiàn)實。
一旦生成一個世界,它就會一直存在。
不會因為你看向別的視角,再看回來,原視角的場景就會改變了。
第二,實時控制。
生成場景后,用戶可以通過鍵盤或鼠標控制,實時在這個 3D 世界暢游移動。
你甚至可以仔細觀察一朵花的細節(jié),或者在某個地方暗中觀察,用上帝視角注意這個世界的一舉一動。
第三,遵循正確的幾何規(guī)則。
這個 AI 系統(tǒng)生成的世界,是遵守 3D 集合物理基本規(guī)則的。
某些 AI 生成的視頻,雖然效果很夢核,但可沒有咱的這種深度的真實感喲(doge)。
官方博文中還寫道,創(chuàng)造一個可視化 3D 場景,最簡單的辦法是繪制深度圖。
圖中每個像素的顏色,都是由它和攝像頭的距離來決定的。
當然了,用戶可以使用 3D 場景結構來構建互動效果 ——
單擊就能與場景互了,包括但不限于突然給場景打個聚光燈。
動畫效果?
那也是 so easy 啦。
走進繪畫世界
團隊還玩兒了一把,以“全新的方式”體驗一些經(jīng)典的藝術作品。
全新,不僅在于可互動的交互方式,還在于就靠輸入進去的那一張圖,就能補全原畫里沒有的部分。然后變成 3D 世界。
這是梵高的《夜晚露天咖啡座》:
這是愛德華?霍普的《夜行者》:
創(chuàng)造性的工作流
團隊表示,3D 世界生成可以非常自然地和其它 AI 工具相結合。這讓創(chuàng)作者們可以用他們已經(jīng)用順手的工具感受新的工作流體驗。
舉個栗子:
可以先用文生圖模型,從文本世界來到圖像世界。因為不同模型有各自擅長的風格特點,3D 世界可以把這些風格遷徙、繼承過來。
在同一 prompt 下,輸入不同風格的文生圖模型生成的圖片,可以誕生不同的 3D 世界:
一個充滿活力的卡通風格青少年臥室,床上鋪著五彩斑斕的毯子,桌子上雜亂地擺放著電腦,墻上掛著海報,散落著運動器材。一把吉他靠在墻上,中間鋪著一塊舒適的花紋地毯。窗戶透進的光線給房間增添了一絲溫暖和青春的氣息。
World Labs 和空間智能
“World Labs”公司,由斯坦福大學教授、AI 教母李飛飛在今年 4 月創(chuàng)立。這也是她被曝出的首次創(chuàng)業(yè)。
而她的創(chuàng)業(yè)方向是一個新概念 —— 空間智能,即:
視覺化為洞察;看見成為理解;理解導致行動。
在李飛飛看來,這是“解決人工智能難題的關鍵拼圖”。
只用了 3 個月時間,公司就突破了 10 億美元估值,成為新晉獨角獸。
公開資料顯示,a16z、NEA 和 Radical Ventures 是領投方,Adobe、AMD、Databricks,以及老黃的英偉達也都在投資者之列。個人投資者中也不乏大佬:Karpathy、Jeff Dean、Hinton……
今年 5 月,李飛飛有一場公開的 15 分鐘 TED 演講。她洋洋灑灑,分享了對于空間智能的更多思考,要點包括:
視覺能力被認為引發(fā)了寒武紀大爆發(fā) —— 一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的定位,很快變得更加主動,神經(jīng)系統(tǒng)開始進化…… 這些變化催生了智能。
多年來,我一直在說拍照和理解不是一回事。今天,我想再補充一點:僅僅看是不夠的??矗菫榱诵袆雍蛯W習。
如果我們想讓 AI 超越當前能力,我們不僅想要能夠看到和說話的 AI,我們還想要能夠行動的 AI??臻g智能的最新里程碑是,教計算機看到、學習、行動,并學習看到和行動得更好。
隨著空間智能的加速進步,一個新時代在這個良性循環(huán)中正在我們眼前展開。這種循環(huán)正在催化機器人學習,這是任何需要理解和與 3D 世界互動的具身智能系統(tǒng)的關鍵組成部分。
據(jù)報道,該公司的目標客戶包括視頻游戲開發(fā)商和電影制片廠。除了互動場景之外,World Labs 還計劃開發(fā)一些對藝術家、設計師、開發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具。
如今伴隨著空間智能首個項目的發(fā)布,他們要做的事也逐漸具象化了起來。但 World Labs 表示,目前發(fā)布的只是一個“早期預覽”:
我們正在努力改進我們生成的世界的規(guī)模和逼真度,并嘗試新的方式讓用戶與之互動。
參考鏈接:
原標題《李飛飛空間智能首秀:AI 靠單圖生成 3D 世界,可探索,遵循基本物理幾何規(guī)則》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。