猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

新智元 2023/8/14 13:38:35 責(zé)編：汪淼

評(píng)論：

【新智元導(dǎo)讀】當(dāng)猩猩學(xué)會(huì)玩《我的世界》，方法居然和英偉達(dá)科學(xué)家訓(xùn)練 GPT-4 智能體的方法一致？

注意，這位玩家正在熟練地玩著《我的世界》，ta 游刃有余地進(jìn)行著收集零食和打碎積木的操作。

鏡頭一轉(zhuǎn)，我們才發(fā)現(xiàn)：玩家的真實(shí)身份，竟然是一只猩猩！

沒(méi)錯(cuò)，這是一項(xiàng)來(lái)自「猩猩行動(dòng)計(jì)劃（Ape Initiative）」的非人類(lèi)生物神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)。而實(shí)驗(yàn)的主角 Kanzi，是一只 42 歲的倭黑猩猩。

經(jīng)過(guò)訓(xùn)練后，它學(xué)會(huì)了各種技能，挑戰(zhàn)了鄉(xiāng)村、沙漠神殿、下界傳送門(mén)等環(huán)境，一路通關(guān)到達(dá)終點(diǎn)。

而 AI 專(zhuān)家發(fā)現(xiàn)，猩猩訓(xùn)練師教會(huì)它學(xué)技能的過(guò)程，竟然跟人類(lèi)教 AI 玩 Minecraft 有諸多類(lèi)似之處，比如上下文強(qiáng)化學(xué)習(xí)、RLHF、模仿學(xué)習(xí)、課程學(xué)習(xí)等。

當(dāng)猩猩學(xué)會(huì)玩《我的世界》

Kanzi 是來(lái)自 Ape Initiative 的一只倭黑猩猩，它是世界上最聰明的猩猩之一，聽(tīng)得懂英語(yǔ)，還會(huì)使用觸摸屏。

在 Ape Initiative，Kanzi 能接觸到各種電子觸摸屏，這或許為它快速上手《我的世界》打好了基礎(chǔ)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

人們第一次向 Kanzi 展示《我的世界》時(shí)，它一坐到屏幕前就發(fā)現(xiàn)了綠色的箭頭，然后用手指劃向了這個(gè)目標(biāo)物上。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

學(xué)習(xí)三種技能

才不過(guò)幾秒鐘，Kanzi 就發(fā)現(xiàn)了該怎樣在《我的世界》中移動(dòng)。隨后，它還學(xué)會(huì)了收集獎(jiǎng)勵(lì)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

每收集一個(gè)獎(jiǎng)勵(lì)，它都會(huì)得到花生、葡萄、蘋(píng)果之類(lèi)的零食獎(jiǎng)勵(lì)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

Kanzi 的操作越來(lái)越嫻熟。它會(huì)分辨和目標(biāo)箭頭同樣是綠色柱形的障礙物，在收集獎(jiǎng)勵(lì)時(shí)繞開(kāi)它們。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

當(dāng)然，Kanzi 也會(huì)遇到難關(guān)。它需要使用 break 工具擊碎大的積木塊，但這個(gè)操作，它此前從未見(jiàn)過(guò)。

眼看 Kanzi 卡住了，人類(lèi)在旁邊開(kāi)始幫忙，指著所需的工具按鈕。然而 Kanzi 看完后仍然沒(méi)能領(lǐng)悟。

人類(lèi)只好親自上手，用工具敲碎了木塊。Kanzi 看完后若有所思，在所有人期待的目光中，它也有樣學(xué)樣，點(diǎn)擊按鈕后擊碎了木塊。人們瞬間爆發(fā)出歡呼。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

現(xiàn)在，Kanzi 的技能樹(shù)已經(jīng)集齊了兩樣：收集零食、打碎積木。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

在學(xué)習(xí)山洞技能的時(shí)候，工作人員發(fā)現(xiàn)，如果從試圖擊碎的木塊上滑落，Kanzi 就會(huì)直接走掉。因此，人們?yōu)樗貏e定制了一個(gè)任務(wù) ——

在一個(gè)到處都是鉆石墻的山洞中擊碎木塊，來(lái)證明它掌握了收藏和擊碎的技能。

在山洞里一切都很順利，然而，Kanzi 卻遇到了一個(gè)問(wèn)題：它在墻角被卡住了。此時(shí)，就需要人類(lèi)伸出援手。

最終，Kanzi 到達(dá)了洞穴底部，擊碎了最后一道墻。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

人群爆發(fā)出歡呼，Kanzi 也高興地和工作人員擊掌。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

騙過(guò)人類(lèi)

接下來(lái)，有意思的來(lái)了：工作人員邀請(qǐng)了一位人類(lèi)玩家，和 Kanzi 一起玩游戲，當(dāng)然，他對(duì)于 Kanzi 的身份并不知情。

工作人員打算看一看，這位玩家會(huì)在多長(zhǎng)時(shí)間后意識(shí)到，和自己一起玩游戲的并不是人類(lèi)。

開(kāi)始，這位小哥只是覺(jué)得，對(duì)方的移動(dòng)速度慢到不可思議，當(dāng) Kanzi 的畫(huà)面被展現(xiàn)到眼前，小哥直接被嚇到后仰。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

走出迷宮

之后再玩《我的世界》，Kanzi 越戰(zhàn)越勇。

每當(dāng) Kanzi 收集到一個(gè)獎(jiǎng)勵(lì)，人們就會(huì)用歡呼的形式肯定它的行為，如果它失敗了，訓(xùn)練員也會(huì)用鼓掌和歡呼鼓勵(lì)它繼續(xù)進(jìn)行游戲。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

這時(shí)，它已經(jīng)學(xué)會(huì)解鎖地下迷宮的地圖：

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

擊碎面前的障礙物：

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

找到紫水晶：

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

當(dāng) Kanzi 卡住的時(shí)候，它會(huì)出去散散心，拿回一根木棍放到自己旁邊。就算不幸失敗，Kanzi 也會(huì)點(diǎn)擊按鈕，讓自己重生。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

最后一關(guān)，是一個(gè)充滿(mǎn)分岔路的巨大迷宮。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

因?yàn)檫t遲無(wú)法走出迷宮，Kanzi 焦躁起來(lái)，開(kāi)始拿著樹(shù)枝尖叫，或者氣得把樹(shù)枝折斷。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

最終，它讓自己平靜下來(lái)繼續(xù)闖關(guān)，走出了迷宮。立刻，掌聲和歡呼聲把 Kanzi 包圍了。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

看來(lái)，《我的世界》是被 Kanzi 這只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之處

看著一只倭黑猩猩熟練地玩著電子游戲，多少會(huì)有點(diǎn)讓人覺(jué)得有些荒誕和不可思議。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

英偉達(dá)高級(jí)科學(xué)家 Jim Fan 對(duì)此評(píng)論道 ——

盡管 Kanzi 和它的祖先們一生從未見(jiàn)過(guò)《我的世界》，但它很快就適應(yīng)了電子屏幕上顯示的《我的世界》中的紋理和物理特性。

而這與它們一直以來(lái)接觸和生活的自然環(huán)境截然不同。這種泛化水平遠(yuǎn)遠(yuǎn)超出了現(xiàn)今為止最強(qiáng)大的視覺(jué)模型。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

訓(xùn)練動(dòng)物玩《我的世界》的技巧本質(zhì)上與訓(xùn)練人工智能的原則是相同的：

- 基于上下文的強(qiáng)化學(xué)習(xí)：

每當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時(shí)，他就會(huì)得到一個(gè)水果或花生，激勵(lì)他繼續(xù)遵循游戲中的規(guī)則。

- RLHF：

Kanzi 并不理解人類(lèi)的語(yǔ)言，但它能看到訓(xùn)練人員為他加油打氣，還會(huì)偶爾給出回應(yīng)。來(lái)自訓(xùn)練人員的歡呼給了 Kanzi 一個(gè)強(qiáng)烈的信號(hào)：它走在正確的道路上。

- 模仿學(xué)習(xí)：

訓(xùn)練員為 Kanzi 演示了如何完成任務(wù)之后，它就立即掌握了相關(guān)操作的含義。演示的效果遠(yuǎn)遠(yuǎn)超出比單獨(dú)使用獎(jiǎng)勵(lì)的策略。

- 課程學(xué)習(xí)（Curriculum learning）：

訓(xùn)練員和 Kanzi 從非常簡(jiǎn)單的環(huán)境開(kāi)始，逐步教導(dǎo) Kanzi 掌握控制技能。最后，Kanzi 能夠穿越復(fù)雜的洞穴、迷宮和下界。

不僅如此，即便是使用了類(lèi)似的訓(xùn)練技巧，動(dòng)物的視覺(jué)系統(tǒng)就能在極短的時(shí)間內(nèi)識(shí)別和適應(yīng)新的環(huán)境，而 AI 視覺(jué)模型則會(huì)花費(fèi)更多的時(shí)間和訓(xùn)練成本，甚至常常難以達(dá)到理想效果。

我們?cè)俅蜗萑肽S克悖論（Moravec's paradox）的深淵：

人工智能與人類(lèi)的能力表現(xiàn)相反。在我們認(rèn)為無(wú)需思考或作為本能的低級(jí)智能活動(dòng)中（如感知和運(yùn)動(dòng)控制），人工智能表現(xiàn)很糟糕。但在需要推理、抽象的高級(jí)智能活動(dòng)中（如邏輯推理和語(yǔ)言理解），人工智能卻很容易超越人類(lèi)。

這正好對(duì)應(yīng)了這個(gè)實(shí)驗(yàn)呈現(xiàn)的結(jié)果：

我們最好的人工智能（GPT-4）在理解語(yǔ)言方面接近人類(lèi)水平，但在感知、識(shí)別方面遠(yuǎn)遠(yuǎn)落后于動(dòng)物。

網(wǎng)友：原來(lái)猩猩打游戲也會(huì)生氣

Kanzi 和 LLMs 都可以玩《我的世界》，但 Kanzi 的學(xué)習(xí)方式和 LLMs 之間存在著不可小覷的差異，我們要注意這一點(diǎn)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

面對(duì) Kanzi 優(yōu)異的學(xué)習(xí)能力，網(wǎng)友們開(kāi)始了惡搞。

有人預(yù)見(jiàn) 6 年以后的世界將成為猩球大戰(zhàn)......

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

或者是猩猩喝可樂(lè)，融入人類(lèi)社會(huì)......

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

甚至馬老板也中槍了，被做成了「猴版」馬斯克。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

也有人說(shuō)，Kanzi 是第一個(gè)擁有游戲玩家憤怒的非人類(lèi)，ta 很滿(mǎn)意。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

「如果 Kanzi 有自己的游戲頻道，我會(huì)老老實(shí)實(shí)看的。」

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

「在玩游戲上，人類(lèi)與倭黑猩猩沒(méi)有太大區(qū)別。我們都受到獎(jiǎng)勵(lì)的激勵(lì)，以執(zhí)行某些任務(wù)并完成目標(biāo)，唯一的區(qū)別是獎(jiǎng)勵(lì)的實(shí)際內(nèi)容。」

「在《我的世界》中，Kanzi 開(kāi)采鉆石的獎(jiǎng)勵(lì)更即時(shí)、更原始（食物），而我們開(kāi)采鉆石的獎(jiǎng)勵(lì)則更延遲且與游戲相關(guān)?？傊?，有點(diǎn)瘋狂?！?/p>

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

先是 GPT 學(xué)會(huì)了玩《我的世界》，現(xiàn)在倭黑猩猩也可以玩了，這讓人不禁開(kāi)始期待能用上 Neuralink 的未來(lái)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

Jim Fan 教 AI 智能體玩《我的世界》

在教 AI 玩 Minecraft 上，人類(lèi)早已積累了許多先進(jìn)經(jīng)驗(yàn)。

早在今年 5 月，Jim Fan 團(tuán)隊(duì)就曾把英偉達(dá)的 AI 智能體接入 GPT-4，做出了一個(gè)全新的 AI 智能體 Voyager。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

Voyager 不僅性能完勝 AutoGPT，而且還可以在游戲中進(jìn)行全場(chǎng)景的終身學(xué)習(xí)！它可以自主寫(xiě)代碼獨(dú)霸《我的世界》，完全無(wú)需人類(lèi)插手。

可以說(shuō)，Voyager 出現(xiàn)后，我們離通用人工智能 AGI，又近了一步。

真?數(shù)字生命

接入 GPT-4 之后，Voyager 根本不用人類(lèi)操心，完全就是自學(xué)成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能，還學(xué)會(huì)了自個(gè)進(jìn)行開(kāi)放式探索。

通過(guò)自我驅(qū)動(dòng)，它不斷擴(kuò)充著自己的物品和裝備，配備不同等級(jí)的盔甲，用盾牌格擋傷害，用柵欄圈養(yǎng)動(dòng)物。

大語(yǔ)言模型的出現(xiàn)，給構(gòu)建具身智能體帶來(lái)了全新的可能性。因?yàn)榛?LLM 的智能體可以利用預(yù)訓(xùn)練模型中蘊(yùn)含的世界知識(shí)，生成一致的行動(dòng)計(jì)劃或可執(zhí)行策略。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

Jim Fan：我們?cè)?BabyAGI / AutoGPT 之前就有了這個(gè)想法，花了很多時(shí)間找出最好的無(wú)梯度架構(gòu)

而在智能體中引入 GPT-4，就開(kāi)啟了一種全新的范式（靠代碼執(zhí)行「訓(xùn)練」，而非靠梯度下降），讓智能體擺脫了無(wú)法終身學(xué)習(xí)的缺陷。

OpenAI 科學(xué)家 Karpathy 也對(duì)此盛贊：這是個(gè)用于高級(jí)技能的「無(wú)梯度架構(gòu)」。在這里，LLM 就相當(dāng)于是前額葉皮層，通過(guò)代碼生成了較低級(jí)的 mineflayer API。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

3 個(gè)關(guān)鍵組件

為了讓 Voyager 成為有效的終身學(xué)習(xí)智能體，來(lái)自英偉達(dá)、加州理工學(xué)院等機(jī)構(gòu)的團(tuán)隊(duì)提出了 3 個(gè)關(guān)鍵組件：

1. 一個(gè)迭代提示機(jī)制，能結(jié)合游戲反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來(lái)改進(jìn)程序
2. 一個(gè)技能代碼庫(kù)，用來(lái)存儲(chǔ)和檢索復(fù)雜行為
3. 一個(gè)自動(dòng)教程，可以最大化智能體的探索

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

首先，Voyager 會(huì)嘗試使用一個(gè)流行的 Minecraft JavaScript API（Mineflayer）來(lái)編寫(xiě)一個(gè)實(shí)現(xiàn)特定目標(biāo)的程序。

游戲環(huán)境反饋和 JavaScript 執(zhí)行錯(cuò)誤（如果有的話(huà)）會(huì)幫助 GPT-4 改進(jìn)程序。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

左：環(huán)境反饋。GPT-4 意識(shí)到在制作木棒之前還需要 2 塊木板。
右：執(zhí)行錯(cuò)誤。GPT-4 意識(shí)到它應(yīng)該制作一把木斧，而不是一把「相思木」斧，因?yàn)?Minecraft 中并沒(méi)有「相思木」斧。

通過(guò)提供智能體當(dāng)前的狀態(tài)和任務(wù)，GPT-4 會(huì)告訴程序是否完成了任務(wù)。

此外，如果任務(wù)失敗了，GPT-4 還會(huì)提出批評(píng)，建議如何完成任務(wù)。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

自我驗(yàn)證

其次，Voyager 通過(guò)在向量數(shù)據(jù)庫(kù)中存儲(chǔ)成功的程序，逐步建立一個(gè)技能庫(kù)。每個(gè)程序可以通過(guò)其文檔字符串的嵌入來(lái)檢索。

復(fù)雜的技能是通過(guò)組合簡(jiǎn)單的技能來(lái)合成的，這會(huì)使 Voyager 的能力隨著時(shí)間的推移迅速增長(zhǎng)，并緩解災(zāi)難性遺忘。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

上：添加技能。每個(gè)技能都由其描述的嵌入索引，可以在將來(lái)的類(lèi)似情況中檢索。
下：檢索技能。當(dāng)面對(duì)自動(dòng)課程提出的新任務(wù)時(shí)，會(huì)進(jìn)行查詢(xún)并識(shí)別前 5 個(gè)相關(guān)技能。

第三，自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài)，提出合適的探索任務(wù)。

例如，如果它發(fā)現(xiàn)自己在沙漠而非森林中，就學(xué)習(xí)采集沙子和仙人掌，而不是鐵。課程是由 GPT-4 基于「發(fā)現(xiàn)盡可能多樣化的東西」這個(gè)目標(biāo)生成的。

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

自動(dòng)課程

作為第一個(gè)由 LLM 驅(qū)動(dòng)、可以終身學(xué)習(xí)的具身智能體，Voyager 的訓(xùn)練過(guò)程和猩猩訓(xùn)練過(guò)程的相似之處，可以給我們?cè)S多啟示。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？

當(dāng)猩猩學(xué)會(huì)玩《我的世界》

學(xué)習(xí)三種技能

騙過(guò)人類(lèi)

走出迷宮

教猩猩和教 AI 的相似之處

- 基于上下文的強(qiáng)化學(xué)習(xí)：

- RLHF：

- 模仿學(xué)習(xí)：

- 課程學(xué)習(xí)（Curriculum learning）：

網(wǎng)友：原來(lái)猩猩打游戲也會(huì)生氣

Jim Fan 教 AI 智能體玩《我的世界》

真?數(shù)字生命

3 個(gè)關(guān)鍵組件

相關(guān)文章

猩猩學(xué)會(huì)玩《我的世界》，方法竟和 GPT-4 智能體相通？