谷歌 AI 宣布,在多任務學習上取得了巨大進展:他們搞出一個會玩 41 款雅達利游戲的 AI,而且采用的新訓練方法比起其他算法,訓練效率大大提升!
此前會玩星際爭霸的 CherryPi 和火出圈的 AlphaGo 都屬于單游戲智能體(Agent),也就是說,一個 AI 只會玩一種游戲。多游戲智能體這邊,現(xiàn)有的訓練算法屈指可數(shù):主要包括時間差分學習算法(Temporal Difference Learning,TD)和行為克?。˙ehavioral Cloning,BC)等。
不過為了讓一個智能體同時學會玩多款游戲,之前的這些方法的訓練過程都很漫長。
現(xiàn)在,谷歌采用了一個新決策 Transformer 架構來訓練智能體,能夠在少量的新游戲數(shù)據(jù)上迅速進行微調,使訓練速度變得更快,而且訓練效果也是杠杠的 —— 該多游戲智能體玩 41 款游戲的表現(xiàn)綜合得分,是 DQN 等其他多游戲智能體的 2 倍左右,甚至可以和只在單個游戲上訓練的智能體媲美。
△ 100% 表示每款游戲的人類平均水平,灰色條代表單游戲智能體,藍色條代表多游戲智能體
下面就來看看這個性能優(yōu)秀的多游戲智能體。
新決策 Transformer 三大亮點
這個處理多款游戲學習的 Transformer,采用了一個將強化學習(Reinforcement Learning,RL)問題視為條件序列建模的架構,它根據(jù)智能體和環(huán)境之間過去的互動以及預期收益,來指導智能體的下一步活動。
說到強化學習,其討論的主要問題是:在訓練過程中,一個面對復雜環(huán)境的智能體,如何通過在每個 Time Step 里感知當前狀態(tài)和 Reward 來指導下一步動作,以最終最大化累計收益(Return)。
傳統(tǒng)的深度 RL 智能體(如 DQN、SimPLe、Dreamer 等)會學習一個策略梯度(Policy Gradient),讓高 Reward 的軌跡出現(xiàn)概率變大,低 Reward 的軌跡出現(xiàn)概率變小。
這就導致它出現(xiàn)一些問題:即需要手動定義一個信息量很大的標量值范圍,包含針對于每個特定游戲的適當信息。這是個相當浩大的工程,而且拓展性較差。
為了解決這個問題,谷歌團隊提出了一個新方法。
訓練納入數(shù)據(jù)更多樣化
谷歌的這個新決策 Transformer,把從入門玩家到高級玩家的經驗數(shù)據(jù)都映射到相應的收益量級(Return Magnitude)中。開發(fā)者們認為,這樣可以讓 AI 模型更全面地“了解”游戲,從而讓其更穩(wěn)定并提高其玩游戲的水平。
他們根據(jù)智能體在訓練期間與環(huán)境的互動,建立了一個收益的大小分布模型。在這個智能體玩游戲時,只需添加一個優(yōu)化偏差來提升高 Reward 出現(xiàn)的概率。
此外,為了在訓練期間更全面地捕捉智能體與環(huán)境互動的時空模式,開發(fā)者還將輸入的全局圖像改成了像素塊,這樣模型就可以關注局部動態(tài),以掌握游戲相關的更多細節(jié)信息。
△ 決策 Transformer 基本架構示意圖
可視化智能體訓練過程
此外,開發(fā)者們還別出心裁地將智能體的行為可視化。然后他們發(fā)現(xiàn),這個多游戲決策智能體一直都在關注著包含關鍵環(huán)境特征等重要信息的區(qū)域,而且它還可以“一心多用”:即同時關注多個重點。
△ 紅色越亮表示智能體對那塊像素的關注度越高
這種多樣化注意力分配也提高了模型的性能。
拓展性更好
如今規(guī)模已成為許多機器學習相關突破的重要驅動力之一,而規(guī)模拓展一般是通過增加 Transformer 模型中的參數(shù)數(shù)量來實現(xiàn)的。研究者發(fā)現(xiàn),這個多游戲決策 Transformer 也是類似的:隨著規(guī)模擴大,和其他模型相比,其性能提升顯著。
Facebook 也在研究決策 Transformer
谷歌 AI 使用決策 Transformer 不僅提高了 AI 玩多個游戲的水平,還提升了多游戲智能體的擴展性。
除此之外,據(jù)谷歌大腦、加州大學伯克利分校和 Facebook AI Research 合作的一篇論文介紹,決策 Transformer 架構在強化學習研究平臺 OpenAI Gym 和 Key-to-Door 任務上也表現(xiàn)出色。
或許決策 Transformer 正是通用人工智能(AGI)發(fā)展的關鍵因素之一。
對了,谷歌 AI 表示,相關代碼和 Checkpoint 會在 GitHub 上陸續(xù)開源,感興趣的小伙伴們可以去看看~
傳送門:
https://github.com/google-research/google-research/tree/master/multi_game_dt
參考鏈接:
[1]https://twitter.com/GoogleAI/status/1550260410686644224
[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html
[3]https://arxiv.org/abs/2106.01345
[4]https://zhuanlan.zhihu.com/p/354618420
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。