設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

通用版 AlphaGo 登《Nature》:最強 AI 棋手,不懂規(guī)則也能精通游戲

智東西 2020/12/26 6:46:03 責編:懶貓

繼 AlphaGo 揚名海外后,DeepMind 再推新模型 MuZero,該模型可以在不知道游戲規(guī)則的情況下,自學圍棋、國際象棋、日本將棋和 Atari 游戲并制定最佳獲勝策略,論文 12 月 24 日發(fā)表至《Nature》。

論文鏈接:

https://arxiv.org/pdf/1911.08265.pdf

自 2016 年,令柯潔流淚、讓李世石沉默的 AlphaGo 橫空出世,打遍棋壇無人能敵后,AI 棋手的名號就此一炮打響,而其背后的發(fā)明家 DeepMind 卻沒有因此止步,四年之內(nèi)迭代了四代 AI 棋手,次次都有新突破。

始祖 AlphaGo 基于人類棋手的訓練數(shù)據(jù)和游戲規(guī)則,采用了神經(jīng)網(wǎng)絡和樹狀搜索方法,成為了第一個精通圍棋的 AI 棋手。

二代 AlphaGo Zero 于 2017 年在《Nature》發(fā)表,與上代相比,不需要人類棋手比賽數(shù)據(jù)作為訓練集,而是通過自對抗的方式自己訓練出最佳模型。

三代 AlphaZero 在 2018 年誕生,將適應領域拓寬至國際象棋和日本將棋,而不是僅限于圍棋。

第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戲規(guī)則的情況下自學規(guī)則,不僅在更靈活、更多變化的 Atari 游戲上代表了 AI 的最強水平,同時在圍棋、國際象棋、日本將棋領域也保持了相應的優(yōu)勢地位。

01. 從未知中學習:三要素搭建動態(tài)模型

與機器擅長重復性的計算和牢固的記憶不同,人類最大的優(yōu)勢就是預測能力,也就是通過環(huán)境、經(jīng)驗等相關信息,推測可能會發(fā)生的事情。

比如,當我們看到烏云密布,我們會推測今天可能有雨,然后再重新考慮是否要出門。即使對于僅有幾歲的孩子而言,學會這種預測方式,然后推廣到生活的方方面面也是很容易,但這對于機器來說并不簡單。

對此,DeepMind 研究人員提出了兩種方案:前向搜索和基于模型的規(guī)劃算法。

前向搜索在二代 AlphaZero 中就已經(jīng)應用過了,它借助對游戲規(guī)則或模擬復盤的深刻理解,制定如跳棋、國際象棋和撲克等經(jīng)典游戲的最佳策略。但這些的基礎是已知游戲規(guī)則及對可能出現(xiàn)的狀況大量模擬,并不適用情況相對混亂的 Atari 游戲,或者未知游戲規(guī)則的情況。

基于模型的規(guī)劃則是通過學習環(huán)境動態(tài)進行精準建模,再給予模型給出最佳策略。但對于環(huán)境建模是很復雜的,也不適用于 Atari 等視覺動畫極多的游戲。目前來看,能夠在 Atari 游戲中獲得最好結果的模型(如 DQN、R2D2 和 Agent57),都是無模型系統(tǒng),也就是不使用學習過的模型,而是基于預測來采取下一步行動。

也是由于以上兩個方法中的優(yōu)劣,MuZero 沒有對環(huán)境中所有的要素進行建模,而是僅針對三個重要的要素:

1、價值:當前處境的好壞情況;

2、策略:目前能采取的最佳行動;

3、獎勵:最后一個動作完成后情況的好壞。

那接下來,我們就來看看 MuZero 是如何通過這三個要素進行建模。

MuZero 從當前位置開始(動畫頂部),使用表示功能 H 將目前狀況映射到神經(jīng)網(wǎng)絡中的嵌入層(S0),并使用動態(tài)函數(shù)(G)和預測函數(shù)(F)來預測下一步應該采取的動作序列(A)。

▲基于蒙特卡洛樹狀搜索和 MuZero 神經(jīng)網(wǎng)絡進行規(guī)劃

那如何知道這一步行動好不好呢?MuZero 會與環(huán)境進行互動,也是模擬對手下一步的走向。

▲MuZero 通過模擬下棋走向訓練神經(jīng)網(wǎng)絡。

而每一步棋對于整體棋局的貢獻都會被累加,成為本次棋局最后的獎勵。

▲策略函數(shù) P 得到每一步預測下法,價值函數(shù) V 得到每一步的獎勵。

除了減少建模工作量外,這種方法的另一個主要優(yōu)點就是可以不斷復盤,而不需要得到外界的新數(shù)據(jù)。這樣的優(yōu)勢也很明顯,在 Atari 的測試中,名為 MuZero Reanalyze 的變體可以利用 90%的時間使用學習過的模型進行重新規(guī)劃,找到更優(yōu)策略。

02.MuZero 強在哪?追平前輩,拓寬 Atari 游戲戰(zhàn)場

MuZero 模型分別自學了圍棋、國際象棋、日本將棋以及 Atari 游戲,前三者用來評估模型在規(guī)劃問題上的表現(xiàn),Atari 則用來評估模型面對視覺游戲時的表現(xiàn)。

▲MuZero 分別在國際象棋、日本將棋、圍棋和 Atari 游戲訓練中的評估結果。橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo 評分。黃色線代表 AlphaZero(在 Atari 游戲中代表人類表現(xiàn)),藍色線代表 MuZero。

在圍棋、國際象棋和日本將棋中,MuZero 不僅在多訓練步驟的情況下達到甚至超過了 “前輩”AlphaZero 的水平,在 Atari 游戲中,MuZero 也表現(xiàn)突出。

▲MuZero 在 Atari 游戲中的性能。所有得分均根據(jù)人類測試的性能進行了歸一化,最佳結果以粗體顯示。

為了進一步評估 MuZero 模型的精確規(guī)劃能力,DeepMind 的研究人員還進行了圍棋中經(jīng)典的高精度規(guī)劃挑戰(zhàn),即指下一步就判斷勝負。

為了證實更多的訓練時間能使 MuZero 模型更強大,DeepMind 進行了如下面左圖實驗,當每一步的判斷時間從 0.1 秒延長到 50 秒,評價玩家技能的 Elo 指標能增加 1000,相當于業(yè)余棋手和最強職業(yè)棋手之間的區(qū)別。

而在右圖的 Atari 游戲 Ms Pac-Man(吃豆小姐)的測試中,也能很明顯地看出訓練時長越長時,模型表現(xiàn)越好。

▲左圖:隨著步驟判斷時間增加,圍棋 Elo 指標上漲;右圖:訓練時長越長,模型表現(xiàn)越好

03. 結語:出身于游戲,期待更多應用

基于環(huán)境要素建模的 MuZero,用在多個游戲上的 “超人”表現(xiàn)證明了卓越的規(guī)劃能力,也象征著 DeepMind 又一在強化學習和通用算法方面的重大進步。

它的前輩 AlphaZero 也已投身于化學、量子物理學等領域,切身實地地為人類科學家們解決一系列復雜問題。在未來,MuZero 是否可以繼承 “家業(yè)”,應對機器人、工業(yè)制造、未知 “游戲規(guī)則”的現(xiàn)實問題所帶來的挑戰(zhàn),我們拭目以待。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI,游戲

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知