又一個 AI 老大難問題,被 DeepMind 攻克了:
一只名叫 DreamerV3 的 AI,在啥也不知道的情況下被丟進(jìn)《我的世界》(MineCraft)里,摸爬滾打 17 天,還真就學(xué)會了如何從 0 開始挖鉆石。
要知道,之前為了攻克這個問題,CMU、微軟、DeepMind 和 OpenAI 還聯(lián)手在 NeurIPS 上拉了個比賽,叫 MineRL。
結(jié)果搞了三四年,AI 們也沒能在不參考人類經(jīng)驗的情況下,完成挖鉆石任務(wù)。
此前表現(xiàn)最好的 VPT 選手,為了達(dá)成這一成就,可是狂看了 70000 + 小時《我的世界》游戲視頻,并且用上了 720 個 V100……
這不 DeepMind 的最新結(jié)果一出,研究人員都開心壞了。
MineRL 的發(fā)起人之一、前 OpenAI 研究科學(xué)家 William Guss 就第一時間跑來發(fā)表賀電:
4 年了,“鉆石挑戰(zhàn)”終于被攻克了!
今年剛拿到了 NeurIPS 杰出數(shù)據(jù)集和基準(zhǔn)論文獎的 MineDojo 作者、英偉達(dá) AI 科學(xué)家范麟熙則表示:
AI 玩轉(zhuǎn) MineCraft 背后,有個莫拉維克悖論:一些任務(wù)對于人類而言很困難(比如圍棋),但對 AI 來說很簡單。但像 MineCraft 這樣人類高玩無數(shù)的游戲,情況卻相反。
DreamerV3 能在沒有任何人工數(shù)據(jù)輔助的情況下收集鉆石,這讓我感到非常興奮。
如何做到
所以,這個 0 基礎(chǔ)挖鉆石任務(wù),到底有啥難點?
首先,在《我的世界》里,初始世界是完全隨機生成的。
即使是人類玩家,想要快速挖到鉆石,也得有相當(dāng)豐富的經(jīng)驗。比如,知道怎么推算鉆石的位置、掌握一些挖掘竅門(如魚骨挖礦法)等。
排除掉經(jīng)驗的因素,對于 AI 來說,這個挖鉆石的過程也挺復(fù)雜,至少得要 7 個步驟。
第一步,玩家在空手進(jìn)入《我的世界》中時,需要先擼樹來獲取木塊:
第二步,得用木塊用來合成工作臺:
第三步,在工作臺上合成木鎬,用來挖圓石:
第四步,獲得圓石之后,需要合成一個石鎬,用來快速挖鐵礦:
第五步,為了將鐵礦合成鐵錠,還需要做一個熔爐來燒鐵:
第六步,合成鐵鎬,用來挖鉆石:
第七步,尋找鉆石,然后用鐵鎬挖出鉆石:
p.s. 有玩家測試過,在 AI 知道鉆石等各種資源坐標(biāo)的情況下(開外掛),也需要 2-3 分鐘才能搞定。
這也就意味著,AI 必須在有限時間里,做出大量決策。
那么既然不能參考人類高手的經(jīng)驗,自然就需要強化學(xué)習(xí)(Reinforcement Learning)出馬。
具體而言,DeepMind 的研究人員提出了一種基于世界模型的通用算法。
在整體架構(gòu)上,DreamerV3 由 3 個神經(jīng)網(wǎng)絡(luò)組成:世界模型、評委(critic)和演員(actor)。
世界模型要做的,是把環(huán)境輸入編碼為離散的表征,并通過預(yù)測來指導(dǎo)下一步要執(zhí)行的操作。
而評委和演員則會根據(jù)抽象出來的表征進(jìn)行學(xué)習(xí)。其中,評委網(wǎng)絡(luò)會輸出一個標(biāo)量值來代表行動價值,從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動。
這里面的一個核心點在于,DeepMind 的研究人員希望 DreamerV3 不僅僅能處理同類型的問題,還可以用固定超參數(shù),掌握跨領(lǐng)域任務(wù)。
因此,研究人員需要系統(tǒng)地解決世界模型、評委和演員等各個組件中信號大小不同,以及穩(wěn)定平衡目標(biāo)的問題。
研究人員發(fā)現(xiàn):
以前的世界模型,需要根據(jù)復(fù)雜 3D 環(huán)境的視覺輸入,對表征損失進(jìn)行不同的縮放,在訓(xùn)練過程中還得調(diào)整不少超參數(shù),但這里面其實有許多沒必要的細(xì)節(jié)。
而如果把自由比特(free bits)和 KL 平衡(KL balancing)結(jié)合起來,就可以在不調(diào)整超參數(shù)的情況下讓 DreamerV3 在不同領(lǐng)域中學(xué)習(xí)。
KL 平衡是上一代 DreamerV2 中提出的一項新技術(shù)。能夠使預(yù)測向表征移動的速度比表征向預(yù)測移動的速度更快,帶來更精確的預(yù)測。
自由比特避免了簡單環(huán)境下的過度擬合。
DreamerV3 的三大塊都用上了固定超參數(shù),具體如下:
實驗結(jié)果
也就是說,DreamerV3 如今成了世界上第一個純靠自己摸索,就能在《我的世界》里速挖鉆石的 AI。
并且 DreamerV3 的本事可不只是玩 MC。
在另外 7 項基準(zhǔn)測試中,DreamerV3 都取得了成功,并且在 BSuite、Crafter 上達(dá)到了 SOTA。
值得一提的是,在這些任務(wù)中,訓(xùn)練智能體所用到的 GPU 資源都僅為 1 塊 V100。研究人員表示,這意味著有更多的實驗室能跑得動這一模型。
另外,在需要時空推理的三維空間中,DreamerV3 也能快速進(jìn)行學(xué)習(xí)。
在 DeepMind 為強化學(xué)習(xí)專門打造的 3D 平臺 DMLab 上,DreamerV3 在任務(wù)中使用的交互次數(shù)僅為 IMPALA 的 1/130。
目前,DreamerV3 的代碼是 coming soon 的狀態(tài)。
感興趣的小伙伴可以蹲一波~
參考鏈接:
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010
本文來自微信公眾號:量子位 (ID:QbitAI),作者:魚羊 Alex
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。