一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

量子位 2022/7/23 15:13:59 責編：瀟公子

評論：

谷歌 AI 宣布，在多任務學習上取得了巨大進展：他們搞出一個會玩 41 款雅達利游戲的 AI，而且采用的新訓練方法比起其他算法，訓練效率大大提升！

此前會玩星際爭霸的 CherryPi 和火出圈的 AlphaGo 都屬于單游戲智能體（Agent），也就是說，一個 AI 只會玩一種游戲。多游戲智能體這邊，現(xiàn)有的訓練算法屈指可數(shù)：主要包括時間差分學習算法（Temporal Difference Learning，TD）和行為克?。˙ehavioral Cloning，BC）等。

不過為了讓一個智能體同時學會玩多款游戲，之前的這些方法的訓練過程都很漫長。

現(xiàn)在，谷歌采用了一個新決策 Transformer 架構來訓練智能體，能夠在少量的新游戲數(shù)據(jù)上迅速進行微調，使訓練速度變得更快，而且訓練效果也是杠杠的 —— 該多游戲智能體玩 41 款游戲的表現(xiàn)綜合得分，是 DQN 等其他多游戲智能體的 2 倍左右，甚至可以和只在單個游戲上訓練的智能體媲美。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

△ 100% 表示每款游戲的人類平均水平，灰色條代表單游戲智能體，藍色條代表多游戲智能體

下面就來看看這個性能優(yōu)秀的多游戲智能體。

新決策 Transformer 三大亮點

這個處理多款游戲學習的 Transformer，采用了一個將強化學習（Reinforcement Learning，RL）問題視為條件序列建模的架構，它根據(jù)智能體和環(huán)境之間過去的互動以及預期收益，來指導智能體的下一步活動。

說到強化學習，其討論的主要問題是：在訓練過程中，一個面對復雜環(huán)境的智能體，如何通過在每個 Time Step 里感知當前狀態(tài)和 Reward 來指導下一步動作，以最終最大化累計收益（Return）。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

傳統(tǒng)的深度 RL 智能體（如 DQN、SimPLe、Dreamer 等）會學習一個策略梯度（Policy Gradient），讓高 Reward 的軌跡出現(xiàn)概率變大，低 Reward 的軌跡出現(xiàn)概率變小。

這就導致它出現(xiàn)一些問題：即需要手動定義一個信息量很大的標量值范圍，包含針對于每個特定游戲的適當信息。這是個相當浩大的工程，而且拓展性較差。

為了解決這個問題，谷歌團隊提出了一個新方法。

訓練納入數(shù)據(jù)更多樣化

谷歌的這個新決策 Transformer，把從入門玩家到高級玩家的經驗數(shù)據(jù)都映射到相應的收益量級（Return Magnitude）中。開發(fā)者們認為，這樣可以讓 AI 模型更全面地“了解”游戲，從而讓其更穩(wěn)定并提高其玩游戲的水平。

他們根據(jù)智能體在訓練期間與環(huán)境的互動，建立了一個收益的大小分布模型。在這個智能體玩游戲時，只需添加一個優(yōu)化偏差來提升高 Reward 出現(xiàn)的概率。

此外，為了在訓練期間更全面地捕捉智能體與環(huán)境互動的時空模式，開發(fā)者還將輸入的全局圖像改成了像素塊，這樣模型就可以關注局部動態(tài)，以掌握游戲相關的更多細節(jié)信息。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

△ 決策 Transformer 基本架構示意圖

可視化智能體訓練過程

此外，開發(fā)者們還別出心裁地將智能體的行為可視化。然后他們發(fā)現(xiàn)，這個多游戲決策智能體一直都在關注著包含關鍵環(huán)境特征等重要信息的區(qū)域，而且它還可以“一心多用”：即同時關注多個重點。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

△ 紅色越亮表示智能體對那塊像素的關注度越高

這種多樣化注意力分配也提高了模型的性能。

拓展性更好

如今規(guī)模已成為許多機器學習相關突破的重要驅動力之一，而規(guī)模拓展一般是通過增加 Transformer 模型中的參數(shù)數(shù)量來實現(xiàn)的。研究者發(fā)現(xiàn)，這個多游戲決策 Transformer 也是類似的：隨著規(guī)模擴大，和其他模型相比，其性能提升顯著。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

Facebook 也在研究決策 Transformer

谷歌 AI 使用決策 Transformer 不僅提高了 AI 玩多個游戲的水平，還提升了多游戲智能體的擴展性。

除此之外，據(jù)谷歌大腦、加州大學伯克利分校和 Facebook AI Research 合作的一篇論文介紹，決策 Transformer 架構在強化學習研究平臺 OpenAI Gym 和 Key-to-Door 任務上也表現(xiàn)出色。

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

或許決策 Transformer 正是通用人工智能（AGI）發(fā)展的關鍵因素之一。

對了，谷歌 AI 表示，相關代碼和 Checkpoint 會在 GitHub 上陸續(xù)開源，感興趣的小伙伴們可以去看看~

傳送門：

https://github.com/google-research/google-research/tree/master/multi_game_dt

參考鏈接：

[1]https://twitter.com/GoogleAI/status/1550260410686644224

[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html

[3]https://arxiv.org/abs/2106.01345

[4]https://zhuanlan.zhihu.com/p/354618420

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：游戲，AI，谷歌

一個 AI 玩 41 個游戲，谷歌最新多游戲決策 Transformer 綜合表現(xiàn)分是 DQN 的兩倍

新決策 Transformer 三大亮點

訓練納入數(shù)據(jù)更多樣化

可視化智能體訓練過程

拓展性更好

Facebook 也在研究決策 Transformer

相關文章