IT之家 12 月 5 日消息,谷歌旗下人工智能研究機(jī)構(gòu) DeepMind 發(fā)布了一款名為 Genie 2 的新型模型,可通過(guò)單張圖片和文字描述生成“無(wú)限”種類的可玩 3D 世界。作為今年初推出的 Genie 模型的升級(jí)版,Genie 2 標(biāo)志著人工智能在虛擬世界生成領(lǐng)域的一次重大突破。
Genie 2 能夠根據(jù)用戶輸入的文本描述和圖像,實(shí)時(shí)生成交互式的三維場(chǎng)景。例如,輸入“森林中的可愛(ài)人形機(jī)器人”,模型便可構(gòu)建一個(gè)包含機(jī)器人角色和可探索環(huán)境的動(dòng)態(tài)場(chǎng)景。用戶可以通過(guò)鍵盤(pán)或鼠標(biāo)操作角色在世界中進(jìn)行跳躍、游泳等互動(dòng)。
DeepMind 表示,Genie 2 可以生成具有不同視角(如第一人稱視角和等距視角)的連貫世界,持續(xù)時(shí)間長(zhǎng)達(dá)一分鐘,其中大多數(shù)持續(xù) 10 到 20 秒。
DeepMind 還稱,Genie 2 在生成過(guò)程中能夠模擬物體交互、動(dòng)畫(huà)、光照、物理反射以及“非玩家角色”(NPC)的行為。許多生成的場(chǎng)景畫(huà)質(zhì)接近 AAA 級(jí)別的電子游戲,甚至在物體視角一致性和場(chǎng)景記憶方面表現(xiàn)優(yōu)異。
與之類似的模型還有李飛飛創(chuàng)立的 World Labs 和以色列初創(chuàng)公司 Decart 的產(chǎn)品,雖然大多數(shù)像 Genie 2 這樣的模型 —— 也就是世界模型 —— 可以模擬游戲和 3D 環(huán)境,但存在偽影、一致性和幻覺(jué)相關(guān)的問(wèn)題。例如,Decart 的 Minecraft 模擬器 Oasis 分辨率低,并且很快就會(huì)“忘記”關(guān)卡的布局。然而,Genie 2 可以記住模擬場(chǎng)景中不在視野范圍內(nèi)的一部分,并在它們?cè)俅慰梢?jiàn)時(shí)準(zhǔn)確地渲染它們。(World Labs 的模型也可以做到這一點(diǎn)。)
值得注意的是,DeepMind 未詳細(xì)披露 Genie 2 的訓(xùn)練數(shù)據(jù)來(lái)源,但業(yè)內(nèi)推測(cè)其可能包括大量熱門游戲的游玩記錄。考慮到谷歌可訪問(wèn) YouTube 海量視頻資源,并聲稱擁有使用其內(nèi)容進(jìn)行訓(xùn)練的權(quán)利,這引發(fā)了外界對(duì)該模型是否侵犯知識(shí)產(chǎn)權(quán)的爭(zhēng)議。
目前用 Genie 2 創(chuàng)建的游戲?qū)嶋H上不會(huì)那么有趣,因?yàn)槊扛粢环昼娮笥揖蜁?huì)抹去進(jìn)度。因此,DeepMind 將其定位為研究與創(chuàng)意工具,應(yīng)用于快速原型設(shè)計(jì)和 AI 智能體評(píng)估等場(chǎng)景。
DeepMind 在其博客中寫(xiě)道:“通過(guò) Genie 2 的泛化能力,概念藝術(shù)和手繪草圖可以轉(zhuǎn)化為完全互動(dòng)的環(huán)境。這讓研究人員能夠快速生成多樣化的環(huán)境,為未見(jiàn)過(guò)的任務(wù)場(chǎng)景提供評(píng)估支持?!?/p>
IT之家注意到,谷歌對(duì)世界模型研究的投入在持續(xù)擴(kuò)大。今年 10 月,DeepMind 聘請(qǐng)了 OpenAI 前視頻生成項(xiàng)目負(fù)責(zé)人 Tim Brooks,同時(shí)兩年前從 Meta 挖來(lái)了以開(kāi)放式實(shí)驗(yàn)聞名的 Tim Rockt?schel。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。