設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepMind 用新 AI 超越自己:提速 200 倍,在所有雅達(dá)利游戲上勝過(guò)人類

量子位 2022/9/21 9:41:51 責(zé)編:遠(yuǎn)生

DeepMind 又對(duì)雅達(dá)利游戲下手了!

這次,他們最新推出的智能體 MEME,在效果不變的前提下,比兩年前的 Agent57 提速了 200 倍

Agent57,是 DeepMind 在 2020 年搞的一個(gè)智能體,史上首次在所有 57 個(gè)雅達(dá)利游戲中超過(guò)了人類基準(zhǔn)表現(xiàn)。

但它有一個(gè)致命缺陷是效率低:需要近 800 億幀的數(shù)據(jù)訓(xùn)練才能實(shí)現(xiàn)。

現(xiàn)在,MEME 的出現(xiàn)完美解決了這一問(wèn)題。

有網(wǎng)友看完表示:這就是真正的樣本高效吧。

話不多說(shuō),趕緊來(lái)一睹為快吧。

新的智能體:MEME

Agent57,作為首個(gè)在所有雅達(dá)利游戲中超越人類基準(zhǔn)表現(xiàn)的智能體,性能上已足夠先進(jìn)。

但問(wèn)題是,要想達(dá)到這一目標(biāo),背后需要 780 億幀的龐大的經(jīng)驗(yàn)訓(xùn)練,這在時(shí)間和成本上都是一筆大開(kāi)支。

因此,以 Agent57 為起點(diǎn),DeepMind 采用了一系列不同的策略,來(lái)實(shí)現(xiàn)訓(xùn)練效率上的提升。

他們調(diào)查了在減少數(shù)據(jù)制度時(shí)遇到的一系列不穩(wěn)定因素和瓶頸,并提出了有效的解決方案,最后建立一個(gè)更加強(qiáng)大和高效的智能體:MEME。

新的 MEME 智能體主要針對(duì) Agent57 的 4 個(gè)方面進(jìn)行改善,分別是:

A.實(shí)現(xiàn)與罕見(jiàn)事件相關(guān)的學(xué)習(xí)信號(hào)的快速傳播

B.在不同的價(jià)值尺度下穩(wěn)定學(xué)習(xí);

C.改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);

D.在快速變化的政策下使更新更加穩(wěn)健。

為了達(dá)到這四個(gè)目標(biāo),DeepMind 采取了以下方法,與上述四點(diǎn)相對(duì)應(yīng)。

A1.用在線網(wǎng)絡(luò)進(jìn)行引導(dǎo);

A2.有公差的目標(biāo)計(jì)算;

B1.損失和優(yōu)先權(quán)歸一化;

B2.交叉混合訓(xùn)練;

C1.無(wú)歸一化的軀干網(wǎng)絡(luò);

C2.帶有綜合損失的共享軀干;

D.通過(guò)策略提煉的魯棒行為。

這些方法旨在提高 Agent57 的數(shù)據(jù)效率,但這種效率的提高不能以犧牲終端性能為代價(jià)。

因此,為了檢驗(yàn)經(jīng)過(guò)上述步驟的智能體 MEME 的效率和性能,研究團(tuán)隊(duì)分別在 2 億、10 億、200 億、900 億幀環(huán)境進(jìn)行了訓(xùn)練。

通過(guò)下圖可以直觀的看出,新智能體 MEME 在 3.9 億幀時(shí)就超過(guò)了人類基準(zhǔn),比 Agent57 快了兩個(gè)數(shù)量級(jí),并且在將參數(shù)量從 90B 減少到 1B 的情況下,取得了類似的最終表現(xiàn)。

可以說(shuō)相比 Agent57 而言,MEME 既提升了效率,又保持了性能。

研究團(tuán)隊(duì)

MEME 的研究團(tuán)隊(duì)來(lái)自 DeepMind。

其中三位 Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell 也是之前 Agent57 的論文作者。

值得一提的是,Steven Kapturowski 在兩篇論文中都是一作。

他畢業(yè)于美國(guó)科羅拉多大學(xué)博爾德分校,曾在蘋(píng)果、微軟、Glassdoor 等公司工作過(guò),現(xiàn)在是 DeepMind 的一名高級(jí)研究工程師。

參考

  • [1]https://arxiv.org/pdf/2209.07550.pdf

  • [2]https://arxiv.org/pdf/2003.13350.pdf

  • [3]https://www.linkedin.cn/incareer/in/stevenkapturowski

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知