設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

在《我的世界》里挖鉆石把 AI 難哭了,DeepMind 最新算法終于扳回顏面

量子位 2023/1/23 13:13:13 責(zé)編:夢澤

又一個 AI 老大難問題,被 DeepMind 攻克了:

一只名叫 DreamerV3 的 AI,在啥也不知道的情況下被丟進(jìn)《我的世界》(MineCraft)里,摸爬滾打 17 天,還真就學(xué)會了如何從 0 開始挖鉆石。

就是從擼樹開始的那種

要知道,之前為了攻克這個問題,CMU、微軟、DeepMind 和 OpenAI 還聯(lián)手在 NeurIPS 上拉了個比賽,叫 MineRL。

結(jié)果搞了三四年,AI 們也沒能在不參考人類經(jīng)驗的情況下,完成挖鉆石任務(wù)。

此前表現(xiàn)最好的 VPT 選手,為了達(dá)成這一成就,可是狂看了 70000 + 小時《我的世界》游戲視頻,并且用上了 720 個 V100……

這不 DeepMind 的最新結(jié)果一出,研究人員都開心壞了。

MineRL 的發(fā)起人之一、前 OpenAI 研究科學(xué)家 William Guss 就第一時間跑來發(fā)表賀電:

4 年了,“鉆石挑戰(zhàn)”終于被攻克了!

今年剛拿到了 NeurIPS 杰出數(shù)據(jù)集和基準(zhǔn)論文獎的 MineDojo 作者、英偉達(dá) AI 科學(xué)家范麟熙則表示:

AI 玩轉(zhuǎn) MineCraft 背后,有個莫拉維克悖論:一些任務(wù)對于人類而言很困難(比如圍棋),但對 AI 來說很簡單。但像 MineCraft 這樣人類高玩無數(shù)的游戲,情況卻相反。

DreamerV3 能在沒有任何人工數(shù)據(jù)輔助的情況下收集鉆石,這讓我感到非常興奮。

如何做到

所以,這個 0 基礎(chǔ)挖鉆石任務(wù),到底有啥難點?

首先,在《我的世界》里,初始世界是完全隨機生成的。

即使是人類玩家,想要快速挖到鉆石,也得有相當(dāng)豐富的經(jīng)驗。比如,知道怎么推算鉆石的位置、掌握一些挖掘竅門(如魚骨挖礦法)等。

排除掉經(jīng)驗的因素,對于 AI 來說,這個挖鉆石的過程也挺復(fù)雜,至少得要 7 個步驟。

第一步,玩家在空手進(jìn)入《我的世界》中時,需要先擼樹來獲取木塊:

第二步,得用木塊用來合成工作臺:

第三步,在工作臺上合成木鎬,用來挖圓石:

第四步,獲得圓石之后,需要合成一個石鎬,用來快速挖鐵礦:

第五步,為了將鐵礦合成鐵錠,還需要做一個熔爐來燒鐵:

第六步,合成鐵鎬,用來挖鉆石:

第七步,尋找鉆石,然后用鐵鎬挖出鉆石:

p.s. 有玩家測試過,在 AI 知道鉆石等各種資源坐標(biāo)的情況下(開外掛),也需要 2-3 分鐘才能搞定。

這也就意味著,AI 必須在有限時間里,做出大量決策。

那么既然不能參考人類高手的經(jīng)驗,自然就需要強化學(xué)習(xí)(Reinforcement Learning)出馬。

具體而言,DeepMind 的研究人員提出了一種基于世界模型的通用算法。

在整體架構(gòu)上,DreamerV3 由 3 個神經(jīng)網(wǎng)絡(luò)組成:世界模型、評委(critic)和演員(actor)。

世界模型要做的,是把環(huán)境輸入編碼為離散的表征,并通過預(yù)測來指導(dǎo)下一步要執(zhí)行的操作。

而評委和演員則會根據(jù)抽象出來的表征進(jìn)行學(xué)習(xí)。其中,評委網(wǎng)絡(luò)會輸出一個標(biāo)量值來代表行動價值,從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動。

這里面的一個核心點在于,DeepMind 的研究人員希望 DreamerV3 不僅僅能處理同類型的問題,還可以用固定超參數(shù),掌握跨領(lǐng)域任務(wù)。

因此,研究人員需要系統(tǒng)地解決世界模型、評委和演員等各個組件中信號大小不同,以及穩(wěn)定平衡目標(biāo)的問題。

研究人員發(fā)現(xiàn):

以前的世界模型,需要根據(jù)復(fù)雜 3D 環(huán)境的視覺輸入,對表征損失進(jìn)行不同的縮放,在訓(xùn)練過程中還得調(diào)整不少超參數(shù),但這里面其實有許多沒必要的細(xì)節(jié)。

而如果把自由比特(free bits)和 KL 平衡(KL balancing)結(jié)合起來,就可以在不調(diào)整超參數(shù)的情況下讓 DreamerV3 在不同領(lǐng)域中學(xué)習(xí)。

KL 平衡是上一代 DreamerV2 中提出的一項新技術(shù)。能夠使預(yù)測向表征移動的速度比表征向預(yù)測移動的速度更快,帶來更精確的預(yù)測。

自由比特避免了簡單環(huán)境下的過度擬合。

DreamerV3 的三大塊都用上了固定超參數(shù),具體如下:

實驗結(jié)果

也就是說,DreamerV3 如今成了世界上第一個純靠自己摸索,就能在《我的世界》里速挖鉆石的 AI。

并且 DreamerV3 的本事可不只是玩 MC。

在另外 7 項基準(zhǔn)測試中,DreamerV3 都取得了成功,并且在 BSuite、Crafter 上達(dá)到了 SOTA。

值得一提的是,在這些任務(wù)中,訓(xùn)練智能體所用到的 GPU 資源都僅為 1 塊 V100。研究人員表示,這意味著有更多的實驗室能跑得動這一模型。

另外,在需要時空推理的三維空間中,DreamerV3 也能快速進(jìn)行學(xué)習(xí)。

在 DeepMind 為強化學(xué)習(xí)專門打造的 3D 平臺 DMLab 上,DreamerV3 在任務(wù)中使用的交互次數(shù)僅為 IMPALA 的 1/130。

目前,DreamerV3 的代碼是 coming soon 的狀態(tài)。

感興趣的小伙伴可以蹲一波~

參考鏈接:

  • [1]https://danijar.com/project/dreamerv3/

  • [2]https://twitter.com/DeepMind/status/1613159943040811010

本文來自微信公眾號:量子位 (ID:QbitAI),作者:魚羊 Alex

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:我的世界,DeepMind

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知