通用版 AlphaGo 登《Nature》：最強(qiáng) AI 棋手，不懂規(guī)則也能精通游戲

智東西 2020/12/26 6:46:03 責(zé)編：懶貓

評(píng)論：

繼 AlphaGo 揚(yáng)名海外后，DeepMind 再推新模型 MuZero，該模型可以在不知道游戲規(guī)則的情況下，自學(xué)圍棋、國際象棋、日本將棋和 Atari 游戲并制定最佳獲勝策略，論文 12 月 24 日發(fā)表至《Nature》。

論文鏈接：

https://arxiv.org/pdf/1911.08265.pdf

自 2016 年，令柯潔流淚、讓李世石沉默的 AlphaGo 橫空出世，打遍棋壇無人能敵后，AI 棋手的名號(hào)就此一炮打響，而其背后的發(fā)明家 DeepMind 卻沒有因此止步，四年之內(nèi)迭代了四代 AI 棋手，次次都有新突破。

始祖 AlphaGo 基于人類棋手的訓(xùn)練數(shù)據(jù)和游戲規(guī)則，采用了神經(jīng)網(wǎng)絡(luò)和樹狀搜索方法，成為了第一個(gè)精通圍棋的 AI 棋手。

二代 AlphaGo Zero 于 2017 年在《Nature》發(fā)表，與上代相比，不需要人類棋手比賽數(shù)據(jù)作為訓(xùn)練集，而是通過自對(duì)抗的方式自己訓(xùn)練出最佳模型。

三代 AlphaZero 在 2018 年誕生，將適應(yīng)領(lǐng)域拓寬至國際象棋和日本將棋，而不是僅限于圍棋。

第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戲規(guī)則的情況下自學(xué)規(guī)則，不僅在更靈活、更多變化的 Atari 游戲上代表了 AI 的最強(qiáng)水平，同時(shí)在圍棋、國際象棋、日本將棋領(lǐng)域也保持了相應(yīng)的優(yōu)勢地位。

01. 從未知中學(xué)習(xí)：三要素搭建動(dòng)態(tài)模型

與機(jī)器擅長重復(fù)性的計(jì)算和牢固的記憶不同，人類最大的優(yōu)勢就是預(yù)測能力，也就是通過環(huán)境、經(jīng)驗(yàn)等相關(guān)信息，推測可能會(huì)發(fā)生的事情。

比如，當(dāng)我們看到烏云密布，我們會(huì)推測今天可能有雨，然后再重新考慮是否要出門。即使對(duì)于僅有幾歲的孩子而言，學(xué)會(huì)這種預(yù)測方式，然后推廣到生活的方方面面也是很容易，但這對(duì)于機(jī)器來說并不簡單。

對(duì)此，DeepMind 研究人員提出了兩種方案：前向搜索和基于模型的規(guī)劃算法。

前向搜索在二代 AlphaZero 中就已經(jīng)應(yīng)用過了，它借助對(duì)游戲規(guī)則或模擬復(fù)盤的深刻理解，制定如跳棋、國際象棋和撲克等經(jīng)典游戲的最佳策略。但這些的基礎(chǔ)是已知游戲規(guī)則及對(duì)可能出現(xiàn)的狀況大量模擬，并不適用情況相對(duì)混亂的 Atari 游戲，或者未知游戲規(guī)則的情況。

基于模型的規(guī)劃則是通過學(xué)習(xí)環(huán)境動(dòng)態(tài)進(jìn)行精準(zhǔn)建模，再給予模型給出最佳策略。但對(duì)于環(huán)境建模是很復(fù)雜的，也不適用于 Atari 等視覺動(dòng)畫極多的游戲。目前來看，能夠在 Atari 游戲中獲得最好結(jié)果的模型（如 DQN、R2D2 和 Agent57），都是無模型系統(tǒng)，也就是不使用學(xué)習(xí)過的模型，而是基于預(yù)測來采取下一步行動(dòng)。

也是由于以上兩個(gè)方法中的優(yōu)劣，MuZero 沒有對(duì)環(huán)境中所有的要素進(jìn)行建模，而是僅針對(duì)三個(gè)重要的要素：

1、價(jià)值：當(dāng)前處境的好壞情況；

2、策略：目前能采取的最佳行動(dòng)；

3、獎(jiǎng)勵(lì)：最后一個(gè)動(dòng)作完成后情況的好壞。

那接下來，我們就來看看 MuZero 是如何通過這三個(gè)要素進(jìn)行建模。

MuZero 從當(dāng)前位置開始（動(dòng)畫頂部），使用表示功能 H 將目前狀況映射到神經(jīng)網(wǎng)絡(luò)中的嵌入層（S0），并使用動(dòng)態(tài)函數(shù)（G）和預(yù)測函數(shù)（F）來預(yù)測下一步應(yīng)該采取的動(dòng)作序列（A）。

▲基于蒙特卡洛樹狀搜索和 MuZero 神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)劃

那如何知道這一步行動(dòng)好不好呢？MuZero 會(huì)與環(huán)境進(jìn)行互動(dòng)，也是模擬對(duì)手下一步的走向。

▲MuZero 通過模擬下棋走向訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

而每一步棋對(duì)于整體棋局的貢獻(xiàn)都會(huì)被累加，成為本次棋局最后的獎(jiǎng)勵(lì)。

▲策略函數(shù) P 得到每一步預(yù)測下法，價(jià)值函數(shù) V 得到每一步的獎(jiǎng)勵(lì)。

除了減少建模工作量外，這種方法的另一個(gè)主要優(yōu)點(diǎn)就是可以不斷復(fù)盤，而不需要得到外界的新數(shù)據(jù)。這樣的優(yōu)勢也很明顯，在 Atari 的測試中，名為 MuZero Reanalyze 的變體可以利用 90%的時(shí)間使用學(xué)習(xí)過的模型進(jìn)行重新規(guī)劃，找到更優(yōu)策略。

02.MuZero 強(qiáng)在哪？追平前輩，拓寬 Atari 游戲戰(zhàn)場

MuZero 模型分別自學(xué)了圍棋、國際象棋、日本將棋以及 Atari 游戲，前三者用來評(píng)估模型在規(guī)劃問題上的表現(xiàn)，Atari 則用來評(píng)估模型面對(duì)視覺游戲時(shí)的表現(xiàn)。

▲MuZero 分別在國際象棋、日本將棋、圍棋和 Atari 游戲訓(xùn)練中的評(píng)估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量，縱坐標(biāo)表示 Elo 評(píng)分。黃色線代表 AlphaZero（在 Atari 游戲中代表人類表現(xiàn)），藍(lán)色線代表 MuZero。

在圍棋、國際象棋和日本將棋中，MuZero 不僅在多訓(xùn)練步驟的情況下達(dá)到甚至超過了 “前輩”AlphaZero 的水平，在 Atari 游戲中，MuZero 也表現(xiàn)突出。

▲MuZero 在 Atari 游戲中的性能。所有得分均根據(jù)人類測試的性能進(jìn)行了歸一化，最佳結(jié)果以粗體顯示。

為了進(jìn)一步評(píng)估 MuZero 模型的精確規(guī)劃能力，DeepMind 的研究人員還進(jìn)行了圍棋中經(jīng)典的高精度規(guī)劃挑戰(zhàn)，即指下一步就判斷勝負(fù)。

為了證實(shí)更多的訓(xùn)練時(shí)間能使 MuZero 模型更強(qiáng)大，DeepMind 進(jìn)行了如下面左圖實(shí)驗(yàn)，當(dāng)每一步的判斷時(shí)間從 0.1 秒延長到 50 秒，評(píng)價(jià)玩家技能的 Elo 指標(biāo)能增加 1000，相當(dāng)于業(yè)余棋手和最強(qiáng)職業(yè)棋手之間的區(qū)別。

而在右圖的 Atari 游戲 Ms Pac-Man（吃豆小姐）的測試中，也能很明顯地看出訓(xùn)練時(shí)長越長時(shí)，模型表現(xiàn)越好。

▲左圖：隨著步驟判斷時(shí)間增加，圍棋 Elo 指標(biāo)上漲；右圖：訓(xùn)練時(shí)長越長，模型表現(xiàn)越好

03. 結(jié)語：出身于游戲，期待更多應(yīng)用

基于環(huán)境要素建模的 MuZero，用在多個(gè)游戲上的 “超人”表現(xiàn)證明了卓越的規(guī)劃能力，也象征著 DeepMind 又一在強(qiáng)化學(xué)習(xí)和通用算法方面的重大進(jìn)步。

它的前輩 AlphaZero 也已投身于化學(xué)、量子物理學(xué)等領(lǐng)域，切身實(shí)地地為人類科學(xué)家們解決一系列復(fù)雜問題。在未來，MuZero 是否可以繼承 “家業(yè)”，應(yīng)對(duì)機(jī)器人、工業(yè)制造、未知 “游戲規(guī)則”的現(xiàn)實(shí)問題所帶來的挑戰(zhàn)，我們拭目以待。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

通用版 AlphaGo 登《Nature》：最強(qiáng) AI 棋手，不懂規(guī)則也能精通游戲

01. 從未知中學(xué)習(xí)：三要素搭建動(dòng)態(tài)模型

02.MuZero 強(qiáng)在哪？追平前輩，拓寬 Atari 游戲戰(zhàn)場

03. 結(jié)語：出身于游戲，期待更多應(yīng)用

相關(guān)文章

02.MuZero 強(qiáng)在哪？追平前輩，拓寬 Atari 游戲戰(zhàn)場

03. 結(jié)語：出身于游戲，期待更多應(yīng)用