設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌推世界首個(gè) AI 游戲引擎 GameNGen:0 代碼生成《毀滅戰(zhàn)士》,有望顛覆 2000 億美元產(chǎn)業(yè)

新智元 2024/8/29 13:02:55 責(zé)編:汪淼

世界上第一個(gè)完全由神經(jīng)模型驅(qū)動(dòng)的游戲引擎,剛剛誕生了!

「黑神話:悟空」的熱度正旺,AI 又在游戲中創(chuàng)造了全新的里程碑。史上首次,AI 能在沒有游戲引擎的情況下,為玩家生成實(shí)時(shí)游戲了。

從此,我們開始進(jìn)入一個(gè)炸裂的新時(shí)代:游戲不僅能被 AI 玩,還能由 AI 來創(chuàng)造和驅(qū)動(dòng)。

谷歌的 GameNGen,可以在單個(gè) TPU 上,讓 AI 以每秒 20 幀的速度,生成實(shí)時(shí)可玩的游戲。每一幀,都是由擴(kuò)散模型預(yù)測(cè)的。

幾年后,AI 實(shí)時(shí)生成 3A 游戲大作的愿望還會(huì)遠(yuǎn)嗎?

從此,開發(fā)者不必再手動(dòng)編程游戲邏輯,開發(fā)時(shí)間和成本都會(huì)顯著降低。價(jià)值 2000 億美元的全球游戲產(chǎn)業(yè),可能會(huì)被徹底顛覆!

谷歌研究者表示,GameNGen 是第一個(gè)完全由神經(jīng)模型驅(qū)動(dòng)的游戲引擎,能夠在復(fù)雜環(huán)境中,實(shí)現(xiàn)高質(zhì)量的長(zhǎng)軌跡實(shí)時(shí)交互。

論文地址:https://arxiv.org/abs/2408.14837

不僅速度是實(shí)時(shí)的,它的優(yōu)秀畫質(zhì),也是讓開發(fā)者顫抖的地步。

模擬「毀滅戰(zhàn)士」時(shí),它下一幀預(yù)測(cè)的峰值信噪比(PSNR)達(dá)到了 29.4,已經(jīng)可以和有損 JPEG 壓縮相媲美。

在神經(jīng)網(wǎng)絡(luò)上實(shí)時(shí)運(yùn)行時(shí),視覺質(zhì)量已經(jīng)達(dá)到了與原始游戲相當(dāng)。

模擬片段和游戲片段如此相似,讓不少人類被試都分不清,眼前的究竟是游戲還是模擬?

網(wǎng)友感慨:這不是游戲,這是人生模擬器。

小島秀夫的另一個(gè)預(yù)言,成真了。

3A 電視劇是不是也來了?想象下,按照自己的喜好生成一版《權(quán)游》。

想象下,1000 年后或一百萬年后,這項(xiàng)技術(shù)是什么樣?我們是模擬的概率,已經(jīng)無限接近于 1 了。

從此,游戲開發(fā)不再需要游戲引擎?

AI 首次完全模擬具有高質(zhì)量圖形和復(fù)雜交互的復(fù)雜視頻游戲,就做到了這個(gè)地步,實(shí)在是太令人驚嘆了。

作為最受歡迎、最具傳奇色彩的第一人稱射擊游戲,自 1993 年發(fā)布以來,「毀滅戰(zhàn)士」一直是個(gè)技術(shù)標(biāo)桿。

它被移植到一系列超乎想象的平臺(tái)上,包括微波爐、數(shù)碼相機(jī)、洗衣機(jī)、保時(shí)捷等等。

而這次,GameNGen 把這些早期改編一舉超越了。

從前,傳統(tǒng)的游戲引擎依賴的是精心編碼的軟件,來管理游戲狀態(tài)和渲染視覺效果。而 GameNGen,只用 AI 驅(qū)動(dòng)的生成擴(kuò)散模型,就能自動(dòng)模擬整個(gè)游戲環(huán)境了

「毀滅戰(zhàn)士」一直以復(fù)雜的 3D 環(huán)境和快節(jié)奏的動(dòng)作聞名,現(xiàn)在,所有這些都不需要游戲引擎的常用組件了!

AI 引擎的意義,不僅僅是減少游戲的開發(fā)時(shí)間和成本。這種技術(shù),可以使游戲創(chuàng)作徹底民主化,無論是小型工作室,還是個(gè)人創(chuàng)作者,都能創(chuàng)造出從前難以想象的復(fù)雜互動(dòng)體驗(yàn)。

此外,AI 游戲引擎,還給全新的游戲類型打開了大門。無論是環(huán)境、敘事,還是游戲機(jī)制,都可以根據(jù)玩家的行為動(dòng)態(tài)來發(fā)展。

從此,游戲格局可能會(huì)被整個(gè)重塑,行業(yè)會(huì)從熱門游戲?yàn)橹行牡哪J?,轉(zhuǎn)向更多樣化的生態(tài)系統(tǒng)。

順便一提,「DOOM」的大小只有 12MB。

大佬們「瘋了」

AI 初創(chuàng) HyperWrite 的 CEO Matt Schumer 表示,這簡(jiǎn)直太瘋狂了!用戶玩游戲時(shí),一個(gè)模型正在實(shí)時(shí)生成游戲。

如果將大多數(shù) AI 模型的進(jìn)展 / 軌跡映射到這上面,那么在幾年內(nèi),我們將會(huì)得到 3A 級(jí)生成游戲。

英偉達(dá)高級(jí)科學(xué)家 Jim Fan 感慨道,被黑客們?cè)诟鞣N地方瘋狂運(yùn)行的 DOOM,竟然在純粹的擴(kuò)散模型中實(shí)現(xiàn)了,每個(gè)像素都是生成的。

連 Sora 跟它比起來,都黯然失色。我們只能設(shè)定初始條件(一個(gè)文本或初始幀),然后只能被動(dòng)觀看模擬過程。

因?yàn)?Sora 無法進(jìn)行交互,因此還不算是一個(gè)「數(shù)據(jù)驅(qū)動(dòng)的物理引擎」。

而 GameNGen 是一個(gè)真正的神經(jīng)世界模型。它將過去的幀(狀態(tài))和用戶的一個(gè)動(dòng)作(鍵盤 / 鼠標(biāo))作為輸入,并輸出下一幀。這種質(zhì)量,是他見過的最令人印象深刻的 DOOM。

隨后,他深度探討了一些 GameNGen 中存在的限制。

比如在單個(gè)游戲上過擬合到了極致;無法想象新的場(chǎng)景,無法合成新的游戲或交互機(jī)制;數(shù)據(jù)集的瓶頸,導(dǎo)致了方法無法推廣;無法實(shí)現(xiàn)用提示詞創(chuàng)造可玩世界,或用世界模型訓(xùn)練更好的具身 AI,等等。

一個(gè)真正有用的神經(jīng)世界模型,應(yīng)該是什么樣子?

馬斯克的回答是:「特斯拉可以用真實(shí)世界的視頻做類似的事情」。

的確,數(shù)據(jù)是難點(diǎn)。

Autopilot 團(tuán)隊(duì)可能擁有數(shù)萬億的數(shù)據(jù)對(duì)(攝像頭視頻,方向盤動(dòng)作)。有了如此豐富的真實(shí)世界數(shù)據(jù),完全有可能訓(xùn)練一個(gè)涵蓋各種極端情況的通用駕駛模擬器,并使用它來部署和驗(yàn)證新的完全自動(dòng)駕駛(FSD)版本,而不需要實(shí)體車輛。

最后 Jim Fan 總結(jié)道:不管怎么說,GameNGen 仍是一個(gè)非常出色的概念驗(yàn)證 —— 至少我們現(xiàn)在知道,9 億幀是將高分辨率 DOOM 壓縮到神經(jīng)網(wǎng)絡(luò)中的上限。

網(wǎng)友們感慨:擴(kuò)散網(wǎng)絡(luò)學(xué)習(xí)物理引擎和游戲規(guī)則的方式,太瘋狂了。

核心作者:個(gè)人里程碑

谷歌 DeepMind 核心貢獻(xiàn)者,項(xiàng)目負(fù)責(zé)人 Shlomi Fruchter,在社交媒體上,介紹了自己開發(fā) GameNGen 的過程。

他表示,「GameNGen 是自己開發(fā)路上的里程碑」。

從最初手寫 GPU 渲染代碼(顯式),到現(xiàn)在訓(xùn)練能在 GPU 上運(yùn)行的神經(jīng)網(wǎng)絡(luò)(隱式),甚至包含了游戲邏輯,讓我有一種實(shí)現(xiàn)了完整「閉環(huán)」的感覺。

Fruchter 進(jìn)行的第一個(gè)大型編碼項(xiàng)目之一是 3D 引擎(如下圖所示)。早在 2002 年,GPU 仍只能用于渲染圖形。

還記得,第一款圖形處理器 GeForce 256 是在 1999 年發(fā)行。渲染 3D 圖形恰好需要大量的矩陣運(yùn)算,這恰恰是 GPU 所擅長(zhǎng)的。

然后谷歌研究人員編寫高級(jí)著色器語言代碼,計(jì)算自定義渲染邏輯并構(gòu)建新的視覺效果,同時(shí)還能保持高幀率。

GameNGen 的誕生,是源于一個(gè)好奇心:

「我們能否在當(dāng)前的處理器上,運(yùn)行一個(gè)隱式神經(jīng)網(wǎng)絡(luò),來進(jìn)行實(shí)時(shí)互動(dòng)游戲」。

對(duì)于 Fruchter 以及團(tuán)隊(duì)成員來說,最終答案是一個(gè)令人興奮的發(fā)現(xiàn)。

AI 大牛 Karpathy 曾說過,100% 純軟件 2.0 計(jì)算機(jī),只有一個(gè)神經(jīng)網(wǎng)絡(luò),完全沒有傳統(tǒng)軟件。

設(shè)備輸入(音頻、視頻、觸摸等)直接到神經(jīng)網(wǎng)絡(luò)中,其輸出直接作為音頻 / 視頻在揚(yáng)聲器 / 屏幕上顯示,就是這樣。

有網(wǎng)友便問道,那就是它不能運(yùn)行 DOOM 了?

對(duì)此,Karpathy 表示,如果能夠很好提出請(qǐng)求,它可能可以非常接近地模擬 DOOM。

而現(xiàn)在,F(xiàn)ruchter 更加肯定,它可以運(yùn)行 DOOM 了。

另一位谷歌作者 Dani Valevski 也轉(zhuǎn)發(fā)了此帖,對(duì)此愿景表示極度認(rèn)可。

GameNGen 或許標(biāo)志著游戲引擎全新范式的開啟,想象一下,和自動(dòng)生成的圖像或視頻一樣,游戲也是自動(dòng)生成的

雖然關(guān)鍵問題依舊存在,比如如何訓(xùn)練、如何最大程度利用人類輸入,以及怎樣利用神經(jīng)游戲引擎創(chuàng)建全新的游戲。但作者表示,這種全新范式的可能性讓人興奮。

而且,GameNGen 的名字也暗藏彩蛋,可以讀出來試一試 —— 和 Game Engine 有相似的發(fā)音。

Agent 采集軌跡,SD 預(yù)測(cè)生成

在手動(dòng)制作計(jì)算機(jī)游戲的時(shí)代,工作流程包括(1)收集用戶輸入(2)更新游戲狀態(tài),以及(3)將更新后的狀態(tài)渲染為屏幕像素,計(jì)算量取決于幀率。

盡管極客工程師們手中的 Doom 可以在 ipod、相機(jī),甚至微波爐、跑步機(jī)等各種硬件上運(yùn)行,但其原理依舊是原樣模擬模擬手動(dòng)編寫的游戲軟件。

看起來截然不同的游戲引擎,也遵循著相同的底層邏輯 —— 工程師們手動(dòng)編程,指定游戲狀態(tài)的更新規(guī)則和渲染邏輯。

如果和擴(kuò)散模型的實(shí)時(shí)視頻生成放在一起,乍一看好像沒什么區(qū)別。然而,正如 Jim Fan 指出的交互式世界模擬不僅僅是非??焖俚囊曨l生成。

  • 其一,生成過程需要以用戶的輸入動(dòng)作流為條件,這打破了現(xiàn)有擴(kuò)散模型架構(gòu)的一些假設(shè)。

  • 其二,模型需要自回歸生成幀,這往往會(huì)導(dǎo)致采樣發(fā)散、模型不穩(wěn)定等問題。

Agent 數(shù)據(jù)收集

由于無法直接對(duì)游戲數(shù)據(jù)進(jìn)行大規(guī)模采樣,因此首先教會(huì)一個(gè) agent 玩游戲,在各種場(chǎng)景中生成類似于人類且足夠多樣化的訓(xùn)練數(shù)據(jù)。

agent 模型使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行 PPO 訓(xùn)練,以簡(jiǎn)單的 CNN 作為特征網(wǎng)絡(luò),共生成 900M 幀的??_a?g?e?n?t 數(shù)據(jù)集,包括 agent 的動(dòng)作以及對(duì)環(huán)境的觀察,用于后續(xù)的訓(xùn)練、推理和微調(diào)。

訓(xùn)練生成模型

GameNGen 使用的 Stable Diffusion 1.4 是文生圖擴(kuò)散模型,其中最重要的架構(gòu)修改就是,讓以文本為條件的模型適應(yīng)數(shù)據(jù)集中的動(dòng)作數(shù)據(jù) a_{<n} 和對(duì)先前幀的觀察結(jié)果 o_{<n}。

具體來說,首先訓(xùn)練一個(gè)嵌入模塊 A_e?m?b,將 agent 的每個(gè)動(dòng)作(例如特定的按鍵)轉(zhuǎn)換為單個(gè) token,并將交叉注意力中的文本替換為編碼后的動(dòng)作序列。

為了能接受 o_{<n} 作為條件,同樣使用自動(dòng)編碼器 ? 將其編碼到潛在空間中(即 x_t),同時(shí)在潛在的通道維度上與噪聲隱變量 ε_(tái)α 拼接在一起。

實(shí)驗(yàn)中也嘗試過用交叉注意力處理 o_{<n} 輸入,但并沒有明顯改進(jìn)。

相比原來的 Stable Diffusion,GameNGen 對(duì)優(yōu)化方法也做了改進(jìn),使用 velocity parameterization 方法最小化擴(kuò)散損失。

GameNGen 方法概述(省略 v-prediction 細(xì)節(jié))

▲ GameNGen 方法概述(省略 v-prediction 細(xì)節(jié))

噪聲增強(qiáng)減輕自回歸漂移

從原 Stable Diffusion 的教師強(qiáng)制訓(xùn)練轉(zhuǎn)換為游戲引擎中的自回歸采樣,會(huì)不可避免地導(dǎo)致錯(cuò)誤累積和樣本質(zhì)量快速下降。

為了避免這個(gè)問題,訓(xùn)練生成模型時(shí)會(huì)在編碼過的上下文幀中添加不同數(shù)量的高斯噪聲,同時(shí)將噪聲水平作為模型的輸入,從而讓降噪網(wǎng)絡(luò)可以糾正先前幀中采樣的信息。

這些操作對(duì)于隨著時(shí)間推移時(shí)保證幀質(zhì)量至關(guān)重要。在推理過程中,也可以控制添加的噪聲水平以最大限度地提高生成質(zhì)量。

自回歸漂移:上圖中,20-30 個(gè)步驟后,生成質(zhì)量會(huì)快速下降;而下圖中,具有噪聲增強(qiáng)的相同軌跡不會(huì)出現(xiàn)質(zhì)量下降

▲ 自回歸漂移:上圖中,20-30 個(gè)步驟后,生成質(zhì)量會(huì)快速下降;而下圖中,具有噪聲增強(qiáng)的相同軌跡不會(huì)出現(xiàn)質(zhì)量下降

推理

模型在推理時(shí)使用 DDIM 采樣方法。之所以能達(dá)到 20FPS 的實(shí)時(shí)生成效率,與 GameNGen 推理期極高的采樣效率直接相關(guān)。

通常,生成擴(kuò)散模型(例如 Stable Diffusion)無法只用單個(gè)去噪步驟產(chǎn)生高質(zhì)量結(jié)果,而是需要數(shù)十個(gè)采樣步驟。

但令人驚訝的是,GameNGen 只需 4 個(gè) DDIM 采樣步驟就能穩(wěn)健地模擬 DOOM,而且相比使用 20 個(gè)或更多采樣步驟時(shí),質(zhì)量并沒有明顯下降。

作者推測(cè),這可能源于多個(gè)因素的共同作用,包括可采樣的圖像空間受限,以及通過先前幀信息施加了較強(qiáng)的條件限制。

僅使用 4 個(gè)降噪步驟讓 U-Net 的推理成本降低至 40ms,加上自動(dòng)編碼器,總推理成本為 50ms,相當(dāng)于每秒生成 20 幀圖像。

實(shí)驗(yàn)還發(fā)現(xiàn),模型蒸餾后進(jìn)行單步采樣能夠進(jìn)一步提高幀率,達(dá)到 50FPS,但會(huì)以犧牲模擬質(zhì)量為代價(jià),因此最后還是選用了 20FPS 的采樣方案。

AI 游戲生成太逼真,60% 片段玩家沒認(rèn)出

模擬質(zhì)量

總的來說,就圖像質(zhì)量而言,GameNGen 在長(zhǎng)時(shí)間軌跡上預(yù)測(cè),達(dá)到了與原始游戲相當(dāng)?shù)哪M質(zhì)量。

對(duì)于短時(shí)間軌跡,人評(píng)估者在模擬片段和真實(shí)游戲畫面中,進(jìn)行區(qū)分時(shí),比隨機(jī)猜測(cè)略強(qiáng)一些。

這意味著什么?

AI 生成的游戲畫面,太過逼真沉浸,讓人類玩家有時(shí)根本無法辨別。

圖像質(zhì)量

這里,評(píng)估中采用了 LPIPS 和 PSNR 作為評(píng)估指標(biāo)。這是在強(qiáng)制教學(xué)設(shè)置下進(jìn)行測(cè)量,即基于真實(shí)過去觀察預(yù)測(cè)單個(gè)幀。

對(duì) 5 個(gè)不同關(guān)卡中,隨機(jī)抽取的 2048 個(gè)軌跡進(jìn)行評(píng)估時(shí),GameNGen 達(dá)到了 29.43 的 PSNR 和 0.249 的 LPIPS。

下圖 5 展示了,模型預(yù)測(cè)和相應(yīng)的真實(shí)樣本示例。

視頻質(zhì)量

針對(duì)視頻質(zhì)量,研究人員使用了自回歸設(shè)置,即模型基于自己的過去預(yù)測(cè)來生成后續(xù)幀。

不過,預(yù)測(cè)和真實(shí)軌跡在幾步后會(huì)發(fā)生偏離,主要是由于幀間移動(dòng)速度的微小差異累積。

如下圖 6 所示,隨著時(shí)間推移,每幀的 PSNR 值下降,LPIPS 值上升。

預(yù)測(cè)軌跡在內(nèi)容和圖像質(zhì)量方面,仍與實(shí)際游戲相似,但逐幀指標(biāo)在捕捉這一點(diǎn)上,能力有限。

因此,研究團(tuán)隊(duì)測(cè)量了在 512 個(gè)隨機(jī)保留軌跡上,計(jì)算的 FVD(用于測(cè)量預(yù)測(cè)和真實(shí)軌跡分布之間的距離)。

這里,分別對(duì) 16 幀(0.8 秒)和 32 幀(1.6 秒)兩種模擬長(zhǎng)度,進(jìn)行了測(cè)試。

最終,得到的 FVD 分別是 114.02,以及 186.23。

人工評(píng)估

為了得到更真實(shí)的評(píng)估,研究者向 10 名人類評(píng)分者,提供了 130 個(gè)隨機(jī)短片段(長(zhǎng)度為 1.6 秒和 3.2 秒)。

并且,將 GameNGen 模擬的游戲和真實(shí)游戲并排對(duì)比,如下所示。

評(píng)估者的任務(wù),便是識(shí)別其中,哪一個(gè)是真實(shí)游戲。

結(jié)果發(fā)現(xiàn),針對(duì) 1.6 秒生成游戲的片段,在 58% 情況下,他們認(rèn)為 GameNGen 生成游戲是真實(shí)的。而對(duì)于 3.2 秒片段,這一比率更高,達(dá)到了 60%。

消融實(shí)驗(yàn)

接下來,研究者評(píng)估了架構(gòu)中,不同組件的重要性,從評(píng)估數(shù)據(jù)集中采樣軌跡,并計(jì)算地面真值與預(yù)測(cè)幀之間的 LPIPS 和 PSNR 指標(biāo)。

上下文

通過訓(xùn)練 N∈{1, 2, 4, 8, 16, 32, 64} 模型,測(cè)試上下文中過去觀察數(shù)量 N 的影響。(標(biāo)準(zhǔn)模型使用了 N=64)。

這影響了歷史幀和動(dòng)作的數(shù)量。

保持解碼器凍結(jié)情況下,訓(xùn)練模型 200,000 步,并在 5 個(gè)關(guān)卡的測(cè)試集軌跡上進(jìn)行評(píng)估。

結(jié)果如下表 1 所示,如預(yù)期一樣,研究者觀察到 GameNGen 生成質(zhì)量,隨著上下文增加,而提升。

更有趣的是,在 1 幀和 2 幀之間,這一改進(jìn)非常大,但往后開始很快接近了閾值線,改進(jìn)質(zhì)量逐漸放緩。

即便用上了最大上下文(64 幀),GameNGen 模型也僅能訪問,略超過 3 秒的歷史信息。

另一個(gè)發(fā)現(xiàn)是,大部分游戲狀態(tài)可能會(huì)持續(xù)更長(zhǎng)時(shí)間。

表 1 結(jié)果很好地說明了,未來可能需要改變模型架構(gòu),來支持更長(zhǎng)的上下文。同時(shí),探索更好的方法,采用過去幀作為條件。

噪聲增強(qiáng)

為了消除噪聲增強(qiáng)的影響,研究人員還訓(xùn)練了一個(gè)沒有添加噪聲的模型。

通過對(duì)比評(píng)估,經(jīng)過噪聲增強(qiáng)的標(biāo)準(zhǔn)模型和沒有添加噪聲的模型(在 200k 訓(xùn)練步驟后),以自回歸方式計(jì)算預(yù)測(cè)幀與真實(shí)幀之間的 PSNR 和 LPIPS 指標(biāo)。

如下圖 7 所示,呈現(xiàn)了每個(gè)自回歸步驟的平均指標(biāo)值,總共達(dá) 64 幀。

這些評(píng)估是在隨機(jī)保留的 512 條軌跡上進(jìn)行的。

結(jié)果顯示,沒有噪聲增強(qiáng)時(shí),與真實(shí)值的 LPIPS 距離,比起研究標(biāo)準(zhǔn)噪聲增強(qiáng)模型增加得更快,而 PSNR 下降,表明模擬與真實(shí)值的偏離。

智能體

最后,研究人員將智能體生成的數(shù)據(jù)訓(xùn)練,與使用隨機(jī)策略生成的數(shù)據(jù)訓(xùn)練,進(jìn)行了比較。

這里,通過訓(xùn)練兩個(gè)模型,以及解碼器,每個(gè)模型訓(xùn)練 700k 步。

它們?cè)谝粋€(gè)由 5 個(gè)關(guān)卡組成的 2048 條人類游戲軌跡的數(shù)據(jù)集上,進(jìn)行評(píng)估。

而且,研究人員比較了在 64 幀真實(shí)歷史上下文條件下,生成的第一幀,以及經(jīng)過 3 秒自回歸生成后的幀。

總得來說,研究觀察到,在隨機(jī)軌跡上訓(xùn)練模型效果出乎意料地好,但受限于隨機(jī)策略的探索能力。

而在比較單幀生成時(shí),智能體僅略勝一籌,達(dá)到 25.06 PNSR,而隨機(jī)策略為 24.42。而在比較 3 秒情況下,差異增加到 19.02 Vs 16.84。

在手動(dòng)操作模型時(shí),他們還觀察到,某些區(qū)域?qū)烧叨挤浅H菀?,某些區(qū)域?qū)烧叨挤浅@щy,而在某些區(qū)域智能體表現(xiàn)更好。

因此,作者根據(jù)其在游戲中與起始位置的距離,將 456 個(gè)示例手動(dòng)分為三個(gè)級(jí)別:簡(jiǎn)單、中等和困難。

如下表 2 所示,結(jié)果觀察到,在簡(jiǎn)單和困難集合中,智能體僅略優(yōu)于隨機(jī),而在中等集合中,智能體的優(yōu)勢(shì)如預(yù)期般更大。

0 代碼生成游戲,老黃預(yù)言成真

今天,視頻游戲,是由人類編程的。GameNGen 的誕生,開啟了實(shí)時(shí)互動(dòng)視頻游戲的全新范式。

在這一范式中,游戲是神經(jīng)模型的「權(quán)重」,而非代碼行。如今看來,老黃的預(yù)言近在眼前。

每個(gè)像素很快都將會(huì)是生成的,并非是渲染的。

在今年 GTC 大會(huì)的記者會(huì)上,Bilawal Sidhu 就老黃的話,提出了一個(gè)后續(xù)問題:「我們距每個(gè)像素都是以實(shí)時(shí)幀速率生成的世界還有多遠(yuǎn)」?

老黃表示,我們還需要 5-8 年的時(shí)間,并且現(xiàn)已看到了跨越創(chuàng)新 S 曲線的跡象。

它表明,當(dāng)前存在一種架構(gòu)和模型權(quán)重,可以讓神經(jīng)網(wǎng)絡(luò)能夠在現(xiàn)有 GPU 上,有效交互運(yùn)行復(fù)雜游戲 DOOM。

不過,GameNGen 仍有許多重要的問題存在,這也是谷歌開發(fā)者接下來繼續(xù)攻克的問題。

Shlomi Fruchter 帶領(lǐng)團(tuán)隊(duì)開辟了游戲制作的另一片天地,并希望這個(gè)范式能為前路指明方向。

在這種新范式下,能夠直接拉低視頻游戲的開發(fā)成本,并讓更多人得到訪問。僅需一句話,或者是一個(gè)示例圖像,未來任何一個(gè)開發(fā)者,皆可以對(duì)游戲進(jìn)行開發(fā)和編輯。

另外,為現(xiàn)有游戲創(chuàng)建 / 修改行為,可能在短期就能實(shí)現(xiàn)了。

比如,我們可以將一組幀,轉(zhuǎn)化為一個(gè)全新可玩的關(guān)卡,或者僅基于示例圖像創(chuàng)建一個(gè)新角色,無需編寫代碼。

新范式的好處,或許還能保持足夠優(yōu)秀的幀率,和極少的內(nèi)存占用。

正如論文作者所述,他們希望這小小一步的嘗試,能夠?qū)θ藗冇螒蝮w驗(yàn),甚至更廣泛地對(duì)日常交互軟件系統(tǒng)的互動(dòng),帶來有極大價(jià)值的改善。

從游戲到自動(dòng)駕駛汽車,令人興奮的可能性

更令人興奮的是,GameNGen 的潛在應(yīng)用,遠(yuǎn)遠(yuǎn)超出了游戲領(lǐng)域!

無論是虛擬現(xiàn)實(shí)、自動(dòng)駕駛汽車還是智能城市行業(yè),都可能因此而變革。因?yàn)樵谶@些行業(yè)中,實(shí)時(shí)模擬對(duì)于培訓(xùn)、測(cè)試和運(yùn)營管理都至關(guān)重要。

比如在自動(dòng)駕駛汽車中,需要能夠模擬無數(shù)的駕駛場(chǎng)景,以安全地在復(fù)雜的環(huán)境中行駛。

而 GameNGen 這類 AI 驅(qū)動(dòng)引擎,恰恰可以通過高保真度和實(shí)時(shí)處理來執(zhí)行這項(xiàng)任務(wù)。

在 VR 和 AR 領(lǐng)域,AI 引擎可以創(chuàng)建完全沉浸式的交互式世界,還能實(shí)時(shí)適應(yīng)用戶輸入。

這種交互式模擬產(chǎn)生的巨大吸引力,可能會(huì)徹底改變教育、醫(yī)療保健和遠(yuǎn)程工作等行業(yè)!

當(dāng)然,GameNGen 也存在一些挑戰(zhàn)。雖然它可以以交互速度運(yùn)行《毀滅戰(zhàn)士》,但圖形密集程度更高的游戲,可能會(huì)需要更大的算力。

另外,它是針對(duì)特定游戲量身定制的,因此要開發(fā)能運(yùn)行多個(gè)游戲的通用 AI 游戲引擎,挑戰(zhàn)仍然艱巨。

但現(xiàn)在,我們儼然已至未來的風(fēng)口浪尖,從此,我們最喜歡的游戲不是從代碼行中誕生,而是從機(jī)器的無限創(chuàng)造力中誕生。

從此,人類創(chuàng)造力和機(jī)器智能之間的界限會(huì)越來越模糊。

通過 GameNGen,谷歌研究人員讓我們對(duì)未來有了令人興奮的一瞥 ——

在這個(gè)世界中,阻礙我們虛擬體驗(yàn)的唯一限制,就是 AI 的想象力。

參考資料:

  • https://gamengen.github.io/

  • https://x.com/shlomifruchter/status/1828697328946929845

  • https://x.com/DrJimFan/status/1828813716810539417

本文來自微信公眾號(hào):微信公眾號(hào)(ID:null),作者:新智元,原標(biāo)題《谷歌推世界首個(gè) AI 游戲引擎,2000 億游戲產(chǎn)業(yè)恐顛覆!0 代碼生成游戲,老黃預(yù)言成真》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知