設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 看了 70000 小時《我的世界》視頻學(xué)會人類高級技巧,網(wǎng)友:它好痛苦

量子位 2022/11/28 23:52:00 責(zé)編:遠生

AI 看 70000 小時《我的世界》視頻,能達到一個什么水平?

以“鉆石鎬”(diamond pickaxe)為例,這個東西高級人類玩家要快速點擊 20 分鐘、約 2.4 萬個動作才能制作完成。

而現(xiàn)在的 AI,已然能夠輕松 hold 住了。

哐哐找到各種材料,一步步進行各種合成:

這就是來自 OpenAI 號稱最強的《我的世界》AI——MineDojo。

它還是世界第一個能夠打造“鉆石工具”的 AI。

不僅如此,像打造“石鎬”、“簡易避難所”都不在話下:

當(dāng)然,在《我的世界》里其它的常規(guī)操作,在 MineDojo 手里也游刃有余。

例如游泳、狩獵、支柱跳等等:

至于 OpenAI 為什么要讓 AI 學(xué)會這些技巧,研究人員 Bowen Baker 表示:

很大程度上是因為我們在模擬人類上網(wǎng)時的行為。

MineDojo 是如何煉成的?

正如我們剛才提到的,MineDojo 的“煉成之道”,就是看視頻。

這些視頻內(nèi)容都是人類玩家發(fā)布在油管上,展示自己如何玩《我的世界》的。

然后在看完 70000 小時視頻之后,這個 AI 就學(xué)會了如何執(zhí)行游戲中的各種任務(wù)。

這種方式一般被稱為模仿學(xué)習(xí)(imitation learning),就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)通過觀察人類行為來學(xué)習(xí)。

雖然此前也有眾多相關(guān)研究,但仍有一些問題尚待解決。

“貼標(biāo)簽”就是其中之一。

傳統(tǒng)方式就是在每一個動作上貼上標(biāo)簽:這么做會發(fā)生這件事、那么做會發(fā)生那件事。

但這種方式可想而知的后果,就是工作量太大了,導(dǎo)致可以用來訓(xùn)練的數(shù)據(jù)較少。

因此,OpenAI 的研究人員便另辟蹊徑,想出了不一樣的研究思路 —— 視頻預(yù)訓(xùn)練(Video Pre-Training,VPT):

這個方法的核心思路,就是訓(xùn)練另一個神經(jīng)網(wǎng)絡(luò),專門來處理繁瑣的“貼標(biāo)簽”的工作。

為此,研究人員先是找來一批玩家讓他們先玩《我的世界》,當(dāng)然,娛樂的同時也要記錄下鍵盤、鼠標(biāo)的點擊次數(shù)。

如此一來,研究人員先是得到了 2000 小時帶標(biāo)記的一些數(shù)據(jù)。

在這基礎(chǔ)上,他們便開始訓(xùn)練一個模型,來匹配鍵盤、鼠標(biāo)動作和屏幕上的結(jié)果 ——

例如在什么情況下點下鼠標(biāo),會讓游戲中的角色揮舞斧頭。

把這個模型訓(xùn)練出來之后,就要引入 70000 小時沒有標(biāo)簽的視頻了;在它的加持下,龐大且可用的數(shù)據(jù)集就誕生了。

再接下來,就是回到之前模仿學(xué)習(xí)的思路,用這些新數(shù)據(jù)來訓(xùn)練 AI。

雖說模仿學(xué)習(xí)可以說是強化學(xué)習(xí)的一個分支,但 OpenAI 的研究人員發(fā)現(xiàn),VPT 訓(xùn)出來的 AI,能夠完成單靠強化學(xué)習(xí)無法完成的任務(wù)。

比如制作木板并把它們變成一張桌子(大約需要 970 個連續(xù)動作)。

不僅如此,研究人員還發(fā)現(xiàn),若是把模仿學(xué)習(xí)和強化學(xué)習(xí)做個結(jié)合,那么效果是最好的。

而由《我的世界》這次的研究拓展開來,OpenAI 的研究人員還表示:

我們的 AI 還可以執(zhí)行其它任務(wù),例如鼠標(biāo)瀏覽網(wǎng)站、預(yù)訂航班或在線購物。

《我的世界》已經(jīng)成為 AI 技術(shù)試驗田

其實 OpenAI 這次研究的亮點,刨除 VPT 方法本身,其研究的兩大要素 ——《我的世界》視頻,也成為人們熱議的焦點。

《我的世界》這款游戲的一大特點就是開放性,玩家可以在這個虛擬世界里做出許多意想不到的杰作。

不同于以往強化學(xué)習(xí)訓(xùn)練 AI 的游戲環(huán)境,大多都是以“輸贏”為結(jié)果而終止了,但往往 AI 后期訓(xùn)練出來的能力可能是超越這種“限制”的。

但《我的世界》就沒有“輸贏”之說了,AI 可以在這里盡情的發(fā)揮。因此 OpenAI 研究人員表示:

《我的世界》是訓(xùn)練 AI 很好的試驗田。

而這也贏得了 NeurIPS 的認可 ——MineDojo 拿下了今年這個頂會的一個獎項。

至于這項研究第二個熱議點“視頻”,正如索尼執(zhí)行董事 Peter Stone 所述:

視頻是一種潛力巨大的培訓(xùn)資源。

但似乎 OpenAI 的研究人員還不滿足此次的成果,他們認為,收集 100 萬小時《我的世界》的視頻,會讓它們的 AI 變得更加出色。

當(dāng)然,這項研究也引來不少網(wǎng)友們的圍觀,也有一些比較有意思的討論:

人們想讓 AI 有意識,但它們有意識之后才發(fā)覺,自己需要被迫看這么久的視頻,有夠累的。

論文地址:

https://openai.com/blog/vpt/

參考鏈接:

  • [1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/

  • [2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ

  • [3]https://www.youtube.com/watch?v=fJn9B64Znrk

本文來自微信公眾號:量子位 (ID:QbitAI),作者:金磊

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:我的世界游戲,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知