【新智元導(dǎo)讀】當(dāng)猩猩學(xué)會(huì)玩《我的世界》,方法居然和英偉達(dá)科學(xué)家訓(xùn)練 GPT-4 智能體的方法一致?
注意,這位玩家正在熟練地玩著《我的世界》,ta 游刃有余地進(jìn)行著收集零食和打碎積木的操作。
鏡頭一轉(zhuǎn),我們才發(fā)現(xiàn):玩家的真實(shí)身份,竟然是一只猩猩!
沒(méi)錯(cuò),這是一項(xiàng)來(lái)自「猩猩行動(dòng)計(jì)劃(Ape Initiative)」的非人類(lèi)生物神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)。而實(shí)驗(yàn)的主角 Kanzi,是一只 42 歲的倭黑猩猩。
經(jīng)過(guò)訓(xùn)練后,它學(xué)會(huì)了各種技能,挑戰(zhàn)了鄉(xiāng)村、沙漠神殿、下界傳送門(mén)等環(huán)境,一路通關(guān)到達(dá)終點(diǎn)。
而 AI 專(zhuān)家發(fā)現(xiàn),猩猩訓(xùn)練師教會(huì)它學(xué)技能的過(guò)程,竟然跟人類(lèi)教 AI 玩 Minecraft 有諸多類(lèi)似之處,比如上下文強(qiáng)化學(xué)習(xí)、RLHF、模仿學(xué)習(xí)、課程學(xué)習(xí)等。
當(dāng)猩猩學(xué)會(huì)玩《我的世界》
Kanzi 是來(lái)自 Ape Initiative 的一只倭黑猩猩,它是世界上最聰明的猩猩之一,聽(tīng)得懂英語(yǔ),還會(huì)使用觸摸屏。
在 Ape Initiative,Kanzi 能接觸到各種電子觸摸屏,這或許為它快速上手《我的世界》打好了基礎(chǔ)。
人們第一次向 Kanzi 展示《我的世界》時(shí),它一坐到屏幕前就發(fā)現(xiàn)了綠色的箭頭,然后用手指劃向了這個(gè)目標(biāo)物上。
學(xué)習(xí)三種技能
才不過(guò)幾秒鐘,Kanzi 就發(fā)現(xiàn)了該怎樣在《我的世界》中移動(dòng)。隨后,它還學(xué)會(huì)了收集獎(jiǎng)勵(lì)。
每收集一個(gè)獎(jiǎng)勵(lì),它都會(huì)得到花生、葡萄、蘋(píng)果之類(lèi)的零食獎(jiǎng)勵(lì)。
Kanzi 的操作越來(lái)越嫻熟。它會(huì)分辨和目標(biāo)箭頭同樣是綠色柱形的障礙物,在收集獎(jiǎng)勵(lì)時(shí)繞開(kāi)它們。
當(dāng)然,Kanzi 也會(huì)遇到難關(guān)。它需要使用 break 工具擊碎大的積木塊,但這個(gè)操作,它此前從未見(jiàn)過(guò)。
眼看 Kanzi 卡住了,人類(lèi)在旁邊開(kāi)始幫忙,指著所需的工具按鈕。然而 Kanzi 看完后仍然沒(méi)能領(lǐng)悟。
人類(lèi)只好親自上手,用工具敲碎了木塊。Kanzi 看完后若有所思,在所有人期待的目光中,它也有樣學(xué)樣,點(diǎn)擊按鈕后擊碎了木塊。人們瞬間爆發(fā)出歡呼。
現(xiàn)在,Kanzi 的技能樹(shù)已經(jīng)集齊了兩樣:收集零食、打碎積木。
在學(xué)習(xí)山洞技能的時(shí)候,工作人員發(fā)現(xiàn),如果從試圖擊碎的木塊上滑落,Kanzi 就會(huì)直接走掉。因此,人們?yōu)樗貏e定制了一個(gè)任務(wù) ——
在一個(gè)到處都是鉆石墻的山洞中擊碎木塊,來(lái)證明它掌握了收藏和擊碎的技能。
在山洞里一切都很順利,然而,Kanzi 卻遇到了一個(gè)問(wèn)題:它在墻角被卡住了。此時(shí),就需要人類(lèi)伸出援手。
最終,Kanzi 到達(dá)了洞穴底部,擊碎了最后一道墻。
人群爆發(fā)出歡呼,Kanzi 也高興地和工作人員擊掌。
騙過(guò)人類(lèi)
接下來(lái),有意思的來(lái)了:工作人員邀請(qǐng)了一位人類(lèi)玩家,和 Kanzi 一起玩游戲,當(dāng)然,他對(duì)于 Kanzi 的身份并不知情。
工作人員打算看一看,這位玩家會(huì)在多長(zhǎng)時(shí)間后意識(shí)到,和自己一起玩游戲的并不是人類(lèi)。
開(kāi)始,這位小哥只是覺(jué)得,對(duì)方的移動(dòng)速度慢到不可思議,當(dāng) Kanzi 的畫(huà)面被展現(xiàn)到眼前,小哥直接被嚇到后仰。
走出迷宮
之后再玩《我的世界》,Kanzi 越戰(zhàn)越勇。
每當(dāng) Kanzi 收集到一個(gè)獎(jiǎng)勵(lì),人們就會(huì)用歡呼的形式肯定它的行為,如果它失敗了,訓(xùn)練員也會(huì)用鼓掌和歡呼鼓勵(lì)它繼續(xù)進(jìn)行游戲。
這時(shí),它已經(jīng)學(xué)會(huì)解鎖地下迷宮的地圖:
擊碎面前的障礙物:
找到紫水晶:
當(dāng) Kanzi 卡住的時(shí)候,它會(huì)出去散散心,拿回一根木棍放到自己旁邊。就算不幸失敗,Kanzi 也會(huì)點(diǎn)擊按鈕,讓自己重生。
最后一關(guān),是一個(gè)充滿(mǎn)分岔路的巨大迷宮。
因?yàn)檫t遲無(wú)法走出迷宮,Kanzi 焦躁起來(lái),開(kāi)始拿著樹(shù)枝尖叫,或者氣得把樹(shù)枝折斷。
最終,它讓自己平靜下來(lái)繼續(xù)闖關(guān),走出了迷宮。立刻,掌聲和歡呼聲把 Kanzi 包圍了。
看來(lái),《我的世界》是被 Kanzi 這只倭黑猩猩玩明白了。
教猩猩和教 AI 的相似之處
看著一只倭黑猩猩熟練地玩著電子游戲,多少會(huì)有點(diǎn)讓人覺(jué)得有些荒誕和不可思議。
英偉達(dá)高級(jí)科學(xué)家 Jim Fan 對(duì)此評(píng)論道 ——
盡管 Kanzi 和它的祖先們一生從未見(jiàn)過(guò)《我的世界》,但它很快就適應(yīng)了電子屏幕上顯示的《我的世界》中的紋理和物理特性。
而這與它們一直以來(lái)接觸和生活的自然環(huán)境截然不同。這種泛化水平遠(yuǎn)遠(yuǎn)超出了現(xiàn)今為止最強(qiáng)大的視覺(jué)模型。
訓(xùn)練動(dòng)物玩《我的世界》的技巧本質(zhì)上與訓(xùn)練人工智能的原則是相同的:
- 基于上下文的強(qiáng)化學(xué)習(xí):
每當(dāng) Kanzi 在游戲中達(dá)到標(biāo)記的里程碑時(shí),他就會(huì)得到一個(gè)水果或花生,激勵(lì)他繼續(xù)遵循游戲中的規(guī)則。
- RLHF:
Kanzi 并不理解人類(lèi)的語(yǔ)言,但它能看到訓(xùn)練人員為他加油打氣,還會(huì)偶爾給出回應(yīng)。來(lái)自訓(xùn)練人員的歡呼給了 Kanzi 一個(gè)強(qiáng)烈的信號(hào):它走在正確的道路上。
- 模仿學(xué)習(xí):
訓(xùn)練員為 Kanzi 演示了如何完成任務(wù)之后,它就立即掌握了相關(guān)操作的含義。演示的效果遠(yuǎn)遠(yuǎn)超出比單獨(dú)使用獎(jiǎng)勵(lì)的策略。
- 課程學(xué)習(xí)(Curriculum learning):
訓(xùn)練員和 Kanzi 從非常簡(jiǎn)單的環(huán)境開(kāi)始,逐步教導(dǎo) Kanzi 掌握控制技能。最后,Kanzi 能夠穿越復(fù)雜的洞穴、迷宮和下界。
不僅如此,即便是使用了類(lèi)似的訓(xùn)練技巧,動(dòng)物的視覺(jué)系統(tǒng)就能在極短的時(shí)間內(nèi)識(shí)別和適應(yīng)新的環(huán)境,而 AI 視覺(jué)模型則會(huì)花費(fèi)更多的時(shí)間和訓(xùn)練成本,甚至常常難以達(dá)到理想效果。
我們?cè)俅蜗萑肽S克悖論(Moravec's paradox)的深淵:
人工智能與人類(lèi)的能力表現(xiàn)相反。在我們認(rèn)為無(wú)需思考或作為本能的低級(jí)智能活動(dòng)中(如感知和運(yùn)動(dòng)控制),人工智能表現(xiàn)很糟糕。但在需要推理、抽象的高級(jí)智能活動(dòng)中(如邏輯推理和語(yǔ)言理解),人工智能卻很容易超越人類(lèi)。
這正好對(duì)應(yīng)了這個(gè)實(shí)驗(yàn)呈現(xiàn)的結(jié)果:
我們最好的人工智能(GPT-4)在理解語(yǔ)言方面接近人類(lèi)水平,但在感知、識(shí)別方面遠(yuǎn)遠(yuǎn)落后于動(dòng)物。
網(wǎng)友:原來(lái)猩猩打游戲也會(huì)生氣
Kanzi 和 LLMs 都可以玩《我的世界》,但 Kanzi 的學(xué)習(xí)方式和 LLMs 之間存在著不可小覷的差異,我們要注意這一點(diǎn)。
面對(duì) Kanzi 優(yōu)異的學(xué)習(xí)能力,網(wǎng)友們開(kāi)始了惡搞。
有人預(yù)見(jiàn) 6 年以后的世界將成為猩球大戰(zhàn)......
或者是猩猩喝可樂(lè),融入人類(lèi)社會(huì)......
甚至馬老板也中槍了,被做成了「猴版」馬斯克。
也有人說(shuō),Kanzi 是第一個(gè)擁有游戲玩家憤怒的非人類(lèi),ta 很滿(mǎn)意。
「如果 Kanzi 有自己的游戲頻道,我會(huì)老老實(shí)實(shí)看的。」
「在玩游戲上,人類(lèi)與倭黑猩猩沒(méi)有太大區(qū)別。我們都受到獎(jiǎng)勵(lì)的激勵(lì),以執(zhí)行某些任務(wù)并完成目標(biāo),唯一的區(qū)別是獎(jiǎng)勵(lì)的實(shí)際內(nèi)容。」
「在《我的世界》中,Kanzi 開(kāi)采鉆石的獎(jiǎng)勵(lì)更即時(shí)、更原始(食物),而我們開(kāi)采鉆石的獎(jiǎng)勵(lì)則更延遲且與游戲相關(guān)??傊?,有點(diǎn)瘋狂?!?/p>
先是 GPT 學(xué)會(huì)了玩《我的世界》,現(xiàn)在倭黑猩猩也可以玩了,這讓人不禁開(kāi)始期待能用上 Neuralink 的未來(lái)。
Jim Fan 教 AI 智能體玩《我的世界》
在教 AI 玩 Minecraft 上,人類(lèi)早已積累了許多先進(jìn)經(jīng)驗(yàn)。
早在今年 5 月,Jim Fan 團(tuán)隊(duì)就曾把英偉達(dá)的 AI 智能體接入 GPT-4,做出了一個(gè)全新的 AI 智能體 Voyager。
Voyager 不僅性能完勝 AutoGPT,而且還可以在游戲中進(jìn)行全場(chǎng)景的終身學(xué)習(xí)!它可以自主寫(xiě)代碼獨(dú)霸《我的世界》,完全無(wú)需人類(lèi)插手。
可以說(shuō),Voyager 出現(xiàn)后,我們離通用人工智能 AGI,又近了一步。
真?數(shù)字生命
接入 GPT-4 之后,Voyager 根本不用人類(lèi)操心,完全就是自學(xué)成才。它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學(xué)會(huì)了自個(gè)進(jìn)行開(kāi)放式探索。
通過(guò)自我驅(qū)動(dòng),它不斷擴(kuò)充著自己的物品和裝備,配備不同等級(jí)的盔甲,用盾牌格擋傷害,用柵欄圈養(yǎng)動(dòng)物。
大語(yǔ)言模型的出現(xiàn),給構(gòu)建具身智能體帶來(lái)了全新的可能性。因?yàn)榛?LLM 的智能體可以利用預(yù)訓(xùn)練模型中蘊(yùn)含的世界知識(shí),生成一致的行動(dòng)計(jì)劃或可執(zhí)行策略。
而在智能體中引入 GPT-4,就開(kāi)啟了一種全新的范式(靠代碼執(zhí)行「訓(xùn)練」,而非靠梯度下降),讓智能體擺脫了無(wú)法終身學(xué)習(xí)的缺陷。
OpenAI 科學(xué)家 Karpathy 也對(duì)此盛贊:這是個(gè)用于高級(jí)技能的「無(wú)梯度架構(gòu)」。在這里,LLM 就相當(dāng)于是前額葉皮層,通過(guò)代碼生成了較低級(jí)的 mineflayer API。
3 個(gè)關(guān)鍵組件
為了讓 Voyager 成為有效的終身學(xué)習(xí)智能體,來(lái)自英偉達(dá)、加州理工學(xué)院等機(jī)構(gòu)的團(tuán)隊(duì)提出了 3 個(gè)關(guān)鍵組件:
1. 一個(gè)迭代提示機(jī)制,能結(jié)合游戲反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來(lái)改進(jìn)程序
2. 一個(gè)技能代碼庫(kù),用來(lái)存儲(chǔ)和檢索復(fù)雜行為
3. 一個(gè)自動(dòng)教程,可以最大化智能體的探索
首先,Voyager 會(huì)嘗試使用一個(gè)流行的 Minecraft JavaScript API(Mineflayer)來(lái)編寫(xiě)一個(gè)實(shí)現(xiàn)特定目標(biāo)的程序。
游戲環(huán)境反饋和 JavaScript 執(zhí)行錯(cuò)誤(如果有的話(huà))會(huì)幫助 GPT-4 改進(jìn)程序。
左:環(huán)境反饋。GPT-4 意識(shí)到在制作木棒之前還需要 2 塊木板。
右:執(zhí)行錯(cuò)誤。GPT-4 意識(shí)到它應(yīng)該制作一把木斧,而不是一把「相思木」斧,因?yàn)?Minecraft 中并沒(méi)有「相思木」斧。
通過(guò)提供智能體當(dāng)前的狀態(tài)和任務(wù),GPT-4 會(huì)告訴程序是否完成了任務(wù)。
此外,如果任務(wù)失敗了,GPT-4 還會(huì)提出批評(píng),建議如何完成任務(wù)。
其次,Voyager 通過(guò)在向量數(shù)據(jù)庫(kù)中存儲(chǔ)成功的程序,逐步建立一個(gè)技能庫(kù)。每個(gè)程序可以通過(guò)其文檔字符串的嵌入來(lái)檢索。
復(fù)雜的技能是通過(guò)組合簡(jiǎn)單的技能來(lái)合成的,這會(huì)使 Voyager 的能力隨著時(shí)間的推移迅速增長(zhǎng),并緩解災(zāi)難性遺忘。
上:添加技能。每個(gè)技能都由其描述的嵌入索引,可以在將來(lái)的類(lèi)似情況中檢索。
下:檢索技能。當(dāng)面對(duì)自動(dòng)課程提出的新任務(wù)時(shí),會(huì)進(jìn)行查詢(xún)并識(shí)別前 5 個(gè)相關(guān)技能。
第三,自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài),提出合適的探索任務(wù)。
例如,如果它發(fā)現(xiàn)自己在沙漠而非森林中,就學(xué)習(xí)采集沙子和仙人掌,而不是鐵。課程是由 GPT-4 基于「發(fā)現(xiàn)盡可能多樣化的東西」這個(gè)目標(biāo)生成的。
作為第一個(gè)由 LLM 驅(qū)動(dòng)、可以終身學(xué)習(xí)的具身智能體,Voyager 的訓(xùn)練過(guò)程和猩猩訓(xùn)練過(guò)程的相似之處,可以給我們?cè)S多啟示。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。