首頁 > 科學(xué)探索>科技前沿

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

量子位 2023/1/23 13:13:13 責(zé)編：夢澤

評論：

又一個 AI 老大難問題，被 DeepMind 攻克了：

一只名叫 DreamerV3 的 AI，在啥也不知道的情況下被丟進(jìn)《我的世界》（MineCraft）里，摸爬滾打 17 天，還真就學(xué)會了如何從 0 開始挖鉆石。

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

△ 就是從擼樹開始的那種

要知道，之前為了攻克這個問題，CMU、微軟、DeepMind 和 OpenAI 還聯(lián)手在 NeurIPS 上拉了個比賽，叫 MineRL。

結(jié)果搞了三四年，AI 們也沒能在不參考人類經(jīng)驗的情況下，完成挖鉆石任務(wù)。

此前表現(xiàn)最好的 VPT 選手，為了達(dá)成這一成就，可是狂看了 70000 + 小時《我的世界》游戲視頻，并且用上了 720 個 V100……

這不 DeepMind 的最新結(jié)果一出，研究人員都開心壞了。

MineRL 的發(fā)起人之一、前 OpenAI 研究科學(xué)家 William Guss 就第一時間跑來發(fā)表賀電：

4 年了，“鉆石挑戰(zhàn)”終于被攻克了！

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

今年剛拿到了 NeurIPS 杰出數(shù)據(jù)集和基準(zhǔn)論文獎的 MineDojo 作者、英偉達(dá) AI 科學(xué)家范麟熙則表示：

AI 玩轉(zhuǎn) MineCraft 背后，有個莫拉維克悖論：一些任務(wù)對于人類而言很困難（比如圍棋），但對 AI 來說很簡單。但像 MineCraft 這樣人類高玩無數(shù)的游戲，情況卻相反。
DreamerV3 能在沒有任何人工數(shù)據(jù)輔助的情況下收集鉆石，這讓我感到非常興奮。

如何做到

所以，這個 0 基礎(chǔ)挖鉆石任務(wù)，到底有啥難點？

首先，在《我的世界》里，初始世界是完全隨機生成的。

即使是人類玩家，想要快速挖到鉆石，也得有相當(dāng)豐富的經(jīng)驗。比如，知道怎么推算鉆石的位置、掌握一些挖掘竅門（如魚骨挖礦法）等。

排除掉經(jīng)驗的因素，對于 AI 來說，這個挖鉆石的過程也挺復(fù)雜，至少得要 7 個步驟。

第一步，玩家在空手進(jìn)入《我的世界》中時，需要先擼樹來獲取木塊：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第二步，得用木塊用來合成工作臺：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第三步，在工作臺上合成木鎬，用來挖圓石：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第四步，獲得圓石之后，需要合成一個石鎬，用來快速挖鐵礦：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第五步，為了將鐵礦合成鐵錠，還需要做一個熔爐來燒鐵：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第六步，合成鐵鎬，用來挖鉆石：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

第七步，尋找鉆石，然后用鐵鎬挖出鉆石：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

p.s. 有玩家測試過，在 AI 知道鉆石等各種資源坐標(biāo)的情況下（開外掛），也需要 2-3 分鐘才能搞定。

這也就意味著，AI 必須在有限時間里，做出大量決策。

那么既然不能參考人類高手的經(jīng)驗，自然就需要強化學(xué)習(xí)（Reinforcement Learning）出馬。

具體而言，DeepMind 的研究人員提出了一種基于世界模型的通用算法。

在整體架構(gòu)上，DreamerV3 由 3 個神經(jīng)網(wǎng)絡(luò)組成：世界模型、評委（critic）和演員（actor）。

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

世界模型要做的，是把環(huán)境輸入編碼為離散的表征，并通過預(yù)測來指導(dǎo)下一步要執(zhí)行的操作。

而評委和演員則會根據(jù)抽象出來的表征進(jìn)行學(xué)習(xí)。其中，評委網(wǎng)絡(luò)會輸出一個標(biāo)量值來代表行動價值，從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動。

這里面的一個核心點在于，DeepMind 的研究人員希望 DreamerV3 不僅僅能處理同類型的問題，還可以用固定超參數(shù)，掌握跨領(lǐng)域任務(wù)。

因此，研究人員需要系統(tǒng)地解決世界模型、評委和演員等各個組件中信號大小不同，以及穩(wěn)定平衡目標(biāo)的問題。

研究人員發(fā)現(xiàn)：

以前的世界模型，需要根據(jù)復(fù)雜 3D 環(huán)境的視覺輸入，對表征損失進(jìn)行不同的縮放，在訓(xùn)練過程中還得調(diào)整不少超參數(shù)，但這里面其實有許多沒必要的細(xì)節(jié)。

而如果把自由比特（free bits）和 KL 平衡（KL balancing）結(jié)合起來，就可以在不調(diào)整超參數(shù)的情況下讓 DreamerV3 在不同領(lǐng)域中學(xué)習(xí)。

KL 平衡是上一代 DreamerV2 中提出的一項新技術(shù)。能夠使預(yù)測向表征移動的速度比表征向預(yù)測移動的速度更快，帶來更精確的預(yù)測。

自由比特避免了簡單環(huán)境下的過度擬合。

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

DreamerV3 的三大塊都用上了固定超參數(shù)，具體如下：

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

實驗結(jié)果

也就是說，DreamerV3 如今成了世界上第一個純靠自己摸索，就能在《我的世界》里速挖鉆石的 AI。

并且 DreamerV3 的本事可不只是玩 MC。

在另外 7 項基準(zhǔn)測試中，DreamerV3 都取得了成功，并且在 BSuite、Crafter 上達(dá)到了 SOTA。

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

值得一提的是，在這些任務(wù)中，訓(xùn)練智能體所用到的 GPU 資源都僅為 1 塊 V100。研究人員表示，這意味著有更多的實驗室能跑得動這一模型。

另外，在需要時空推理的三維空間中，DreamerV3 也能快速進(jìn)行學(xué)習(xí)。

在 DeepMind 為強化學(xué)習(xí)專門打造的 3D 平臺 DMLab 上，DreamerV3 在任務(wù)中使用的交互次數(shù)僅為 IMPALA 的 1/130。

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

目前，DreamerV3 的代碼是 coming soon 的狀態(tài)。

感興趣的小伙伴可以蹲一波~

參考鏈接：

[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010

本文來自微信公眾號：量子位（ID：QbitAI），作者：魚羊 Alex

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面

如何做到

實驗結(jié)果

相關(guān)文章

在《我的世界》里挖鉆石把 AI 難哭了，DeepMind 最新算法終于扳回顏面