谷歌 AI 宣布,在多任務(wù)學(xué)習(xí)上取得了巨大進(jìn)展:他們搞出一個(gè)會(huì)玩 41 款雅達(dá)利游戲的 AI,而且采用的新訓(xùn)練方法比起其他算法,訓(xùn)練效率大大提升!
此前會(huì)玩星際爭(zhēng)霸的 CherryPi 和火出圈的 AlphaGo 都屬于單游戲智能體(Agent),也就是說,一個(gè) AI 只會(huì)玩一種游戲。多游戲智能體這邊,現(xiàn)有的訓(xùn)練算法屈指可數(shù):主要包括時(shí)間差分學(xué)習(xí)算法(Temporal Difference Learning,TD)和行為克?。˙ehavioral Cloning,BC)等。
不過為了讓一個(gè)智能體同時(shí)學(xué)會(huì)玩多款游戲,之前的這些方法的訓(xùn)練過程都很漫長。
現(xiàn)在,谷歌采用了一個(gè)新決策 Transformer 架構(gòu)來訓(xùn)練智能體,能夠在少量的新游戲數(shù)據(jù)上迅速進(jìn)行微調(diào),使訓(xùn)練速度變得更快,而且訓(xùn)練效果也是杠杠的 —— 該多游戲智能體玩 41 款游戲的表現(xiàn)綜合得分,是 DQN 等其他多游戲智能體的 2 倍左右,甚至可以和只在單個(gè)游戲上訓(xùn)練的智能體媲美。
△ 100% 表示每款游戲的人類平均水平,灰色條代表單游戲智能體,藍(lán)色條代表多游戲智能體
下面就來看看這個(gè)性能優(yōu)秀的多游戲智能體。
新決策 Transformer 三大亮點(diǎn)
這個(gè)處理多款游戲?qū)W習(xí)的 Transformer,采用了一個(gè)將強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)問題視為條件序列建模的架構(gòu),它根據(jù)智能體和環(huán)境之間過去的互動(dòng)以及預(yù)期收益,來指導(dǎo)智能體的下一步活動(dòng)。
說到強(qiáng)化學(xué)習(xí),其討論的主要問題是:在訓(xùn)練過程中,一個(gè)面對(duì)復(fù)雜環(huán)境的智能體,如何通過在每個(gè) Time Step 里感知當(dāng)前狀態(tài)和 Reward 來指導(dǎo)下一步動(dòng)作,以最終最大化累計(jì)收益(Return)。
傳統(tǒng)的深度 RL 智能體(如 DQN、SimPLe、Dreamer 等)會(huì)學(xué)習(xí)一個(gè)策略梯度(Policy Gradient),讓高 Reward 的軌跡出現(xiàn)概率變大,低 Reward 的軌跡出現(xiàn)概率變小。
這就導(dǎo)致它出現(xiàn)一些問題:即需要手動(dòng)定義一個(gè)信息量很大的標(biāo)量值范圍,包含針對(duì)于每個(gè)特定游戲的適當(dāng)信息。這是個(gè)相當(dāng)浩大的工程,而且拓展性較差。
為了解決這個(gè)問題,谷歌團(tuán)隊(duì)提出了一個(gè)新方法。
訓(xùn)練納入數(shù)據(jù)更多樣化
谷歌的這個(gè)新決策 Transformer,把從入門玩家到高級(jí)玩家的經(jīng)驗(yàn)數(shù)據(jù)都映射到相應(yīng)的收益量級(jí)(Return Magnitude)中。開發(fā)者們認(rèn)為,這樣可以讓 AI 模型更全面地“了解”游戲,從而讓其更穩(wěn)定并提高其玩游戲的水平。
他們根據(jù)智能體在訓(xùn)練期間與環(huán)境的互動(dòng),建立了一個(gè)收益的大小分布模型。在這個(gè)智能體玩游戲時(shí),只需添加一個(gè)優(yōu)化偏差來提升高 Reward 出現(xiàn)的概率。
此外,為了在訓(xùn)練期間更全面地捕捉智能體與環(huán)境互動(dòng)的時(shí)空模式,開發(fā)者還將輸入的全局圖像改成了像素塊,這樣模型就可以關(guān)注局部動(dòng)態(tài),以掌握游戲相關(guān)的更多細(xì)節(jié)信息。
△ 決策 Transformer 基本架構(gòu)示意圖
可視化智能體訓(xùn)練過程
此外,開發(fā)者們還別出心裁地將智能體的行為可視化。然后他們發(fā)現(xiàn),這個(gè)多游戲決策智能體一直都在關(guān)注著包含關(guān)鍵環(huán)境特征等重要信息的區(qū)域,而且它還可以“一心多用”:即同時(shí)關(guān)注多個(gè)重點(diǎn)。
△ 紅色越亮表示智能體對(duì)那塊像素的關(guān)注度越高
這種多樣化注意力分配也提高了模型的性能。
拓展性更好
如今規(guī)模已成為許多機(jī)器學(xué)習(xí)相關(guān)突破的重要驅(qū)動(dòng)力之一,而規(guī)模拓展一般是通過增加 Transformer 模型中的參數(shù)數(shù)量來實(shí)現(xiàn)的。研究者發(fā)現(xiàn),這個(gè)多游戲決策 Transformer 也是類似的:隨著規(guī)模擴(kuò)大,和其他模型相比,其性能提升顯著。
Facebook 也在研究決策 Transformer
谷歌 AI 使用決策 Transformer 不僅提高了 AI 玩多個(gè)游戲的水平,還提升了多游戲智能體的擴(kuò)展性。
除此之外,據(jù)谷歌大腦、加州大學(xué)伯克利分校和 Facebook AI Research 合作的一篇論文介紹,決策 Transformer 架構(gòu)在強(qiáng)化學(xué)習(xí)研究平臺(tái) OpenAI Gym 和 Key-to-Door 任務(wù)上也表現(xiàn)出色。
或許決策 Transformer 正是通用人工智能(AGI)發(fā)展的關(guān)鍵因素之一。
對(duì)了,谷歌 AI 表示,相關(guān)代碼和 Checkpoint 會(huì)在 GitHub 上陸續(xù)開源,感興趣的小伙伴們可以去看看~
傳送門:
https://github.com/google-research/google-research/tree/master/multi_game_dt
參考鏈接:
[1]https://twitter.com/GoogleAI/status/1550260410686644224
[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html
[3]https://arxiv.org/abs/2106.01345
[4]https://zhuanlan.zhihu.com/p/354618420
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。