設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

通用版 AlphaGo 登《Nature》:最強(qiáng) AI 棋手,不懂規(guī)則也能精通游戲

智東西 2020/12/26 6:46:03 責(zé)編:懶貓

繼 AlphaGo 揚(yáng)名海外后,DeepMind 再推新模型 MuZero,該模型可以在不知道游戲規(guī)則的情況下,自學(xué)圍棋、國際象棋、日本將棋和 Atari 游戲并制定最佳獲勝策略,論文 12 月 24 日發(fā)表至《Nature》。

論文鏈接:

https://arxiv.org/pdf/1911.08265.pdf

自 2016 年,令柯潔流淚、讓李世石沉默的 AlphaGo 橫空出世,打遍棋壇無人能敵后,AI 棋手的名號(hào)就此一炮打響,而其背后的發(fā)明家 DeepMind 卻沒有因此止步,四年之內(nèi)迭代了四代 AI 棋手,次次都有新突破。

始祖 AlphaGo 基于人類棋手的訓(xùn)練數(shù)據(jù)和游戲規(guī)則,采用了神經(jīng)網(wǎng)絡(luò)和樹狀搜索方法,成為了第一個(gè)精通圍棋的 AI 棋手。

二代 AlphaGo Zero 于 2017 年在《Nature》發(fā)表,與上代相比,不需要人類棋手比賽數(shù)據(jù)作為訓(xùn)練集,而是通過自對(duì)抗的方式自己訓(xùn)練出最佳模型。

三代 AlphaZero 在 2018 年誕生,將適應(yīng)領(lǐng)域拓寬至國際象棋和日本將棋,而不是僅限于圍棋。

第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戲規(guī)則的情況下自學(xué)規(guī)則,不僅在更靈活、更多變化的 Atari 游戲上代表了 AI 的最強(qiáng)水平,同時(shí)在圍棋、國際象棋、日本將棋領(lǐng)域也保持了相應(yīng)的優(yōu)勢地位。

01. 從未知中學(xué)習(xí):三要素搭建動(dòng)態(tài)模型

與機(jī)器擅長重復(fù)性的計(jì)算和牢固的記憶不同,人類最大的優(yōu)勢就是預(yù)測能力,也就是通過環(huán)境、經(jīng)驗(yàn)等相關(guān)信息,推測可能會(huì)發(fā)生的事情。

比如,當(dāng)我們看到烏云密布,我們會(huì)推測今天可能有雨,然后再重新考慮是否要出門。即使對(duì)于僅有幾歲的孩子而言,學(xué)會(huì)這種預(yù)測方式,然后推廣到生活的方方面面也是很容易,但這對(duì)于機(jī)器來說并不簡單。

對(duì)此,DeepMind 研究人員提出了兩種方案:前向搜索和基于模型的規(guī)劃算法。

前向搜索在二代 AlphaZero 中就已經(jīng)應(yīng)用過了,它借助對(duì)游戲規(guī)則或模擬復(fù)盤的深刻理解,制定如跳棋、國際象棋和撲克等經(jīng)典游戲的最佳策略。但這些的基礎(chǔ)是已知游戲規(guī)則及對(duì)可能出現(xiàn)的狀況大量模擬,并不適用情況相對(duì)混亂的 Atari 游戲,或者未知游戲規(guī)則的情況。

基于模型的規(guī)劃則是通過學(xué)習(xí)環(huán)境動(dòng)態(tài)進(jìn)行精準(zhǔn)建模,再給予模型給出最佳策略。但對(duì)于環(huán)境建模是很復(fù)雜的,也不適用于 Atari 等視覺動(dòng)畫極多的游戲。目前來看,能夠在 Atari 游戲中獲得最好結(jié)果的模型(如 DQN、R2D2 和 Agent57),都是無模型系統(tǒng),也就是不使用學(xué)習(xí)過的模型,而是基于預(yù)測來采取下一步行動(dòng)。

也是由于以上兩個(gè)方法中的優(yōu)劣,MuZero 沒有對(duì)環(huán)境中所有的要素進(jìn)行建模,而是僅針對(duì)三個(gè)重要的要素:

1、價(jià)值:當(dāng)前處境的好壞情況;

2、策略:目前能采取的最佳行動(dòng);

3、獎(jiǎng)勵(lì):最后一個(gè)動(dòng)作完成后情況的好壞。

那接下來,我們就來看看 MuZero 是如何通過這三個(gè)要素進(jìn)行建模。

MuZero 從當(dāng)前位置開始(動(dòng)畫頂部),使用表示功能 H 將目前狀況映射到神經(jīng)網(wǎng)絡(luò)中的嵌入層(S0),并使用動(dòng)態(tài)函數(shù)(G)和預(yù)測函數(shù)(F)來預(yù)測下一步應(yīng)該采取的動(dòng)作序列(A)。

▲基于蒙特卡洛樹狀搜索和 MuZero 神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)劃

那如何知道這一步行動(dòng)好不好呢?MuZero 會(huì)與環(huán)境進(jìn)行互動(dòng),也是模擬對(duì)手下一步的走向。

▲MuZero 通過模擬下棋走向訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

而每一步棋對(duì)于整體棋局的貢獻(xiàn)都會(huì)被累加,成為本次棋局最后的獎(jiǎng)勵(lì)。

▲策略函數(shù) P 得到每一步預(yù)測下法,價(jià)值函數(shù) V 得到每一步的獎(jiǎng)勵(lì)。

除了減少建模工作量外,這種方法的另一個(gè)主要優(yōu)點(diǎn)就是可以不斷復(fù)盤,而不需要得到外界的新數(shù)據(jù)。這樣的優(yōu)勢也很明顯,在 Atari 的測試中,名為 MuZero Reanalyze 的變體可以利用 90%的時(shí)間使用學(xué)習(xí)過的模型進(jìn)行重新規(guī)劃,找到更優(yōu)策略。

02.MuZero 強(qiáng)在哪?追平前輩,拓寬 Atari 游戲戰(zhàn)場

MuZero 模型分別自學(xué)了圍棋、國際象棋、日本將棋以及 Atari 游戲,前三者用來評(píng)估模型在規(guī)劃問題上的表現(xiàn),Atari 則用來評(píng)估模型面對(duì)視覺游戲時(shí)的表現(xiàn)。

▲MuZero 分別在國際象棋、日本將棋、圍棋和 Atari 游戲訓(xùn)練中的評(píng)估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo 評(píng)分。黃色線代表 AlphaZero(在 Atari 游戲中代表人類表現(xiàn)),藍(lán)色線代表 MuZero。

在圍棋、國際象棋和日本將棋中,MuZero 不僅在多訓(xùn)練步驟的情況下達(dá)到甚至超過了 “前輩”AlphaZero 的水平,在 Atari 游戲中,MuZero 也表現(xiàn)突出。

▲MuZero 在 Atari 游戲中的性能。所有得分均根據(jù)人類測試的性能進(jìn)行了歸一化,最佳結(jié)果以粗體顯示。

為了進(jìn)一步評(píng)估 MuZero 模型的精確規(guī)劃能力,DeepMind 的研究人員還進(jìn)行了圍棋中經(jīng)典的高精度規(guī)劃挑戰(zhàn),即指下一步就判斷勝負(fù)。

為了證實(shí)更多的訓(xùn)練時(shí)間能使 MuZero 模型更強(qiáng)大,DeepMind 進(jìn)行了如下面左圖實(shí)驗(yàn),當(dāng)每一步的判斷時(shí)間從 0.1 秒延長到 50 秒,評(píng)價(jià)玩家技能的 Elo 指標(biāo)能增加 1000,相當(dāng)于業(yè)余棋手和最強(qiáng)職業(yè)棋手之間的區(qū)別。

而在右圖的 Atari 游戲 Ms Pac-Man(吃豆小姐)的測試中,也能很明顯地看出訓(xùn)練時(shí)長越長時(shí),模型表現(xiàn)越好。

▲左圖:隨著步驟判斷時(shí)間增加,圍棋 Elo 指標(biāo)上漲;右圖:訓(xùn)練時(shí)長越長,模型表現(xiàn)越好

03. 結(jié)語:出身于游戲,期待更多應(yīng)用

基于環(huán)境要素建模的 MuZero,用在多個(gè)游戲上的 “超人”表現(xiàn)證明了卓越的規(guī)劃能力,也象征著 DeepMind 又一在強(qiáng)化學(xué)習(xí)和通用算法方面的重大進(jìn)步。

它的前輩 AlphaZero 也已投身于化學(xué)、量子物理學(xué)等領(lǐng)域,切身實(shí)地地為人類科學(xué)家們解決一系列復(fù)雜問題。在未來,MuZero 是否可以繼承 “家業(yè)”,應(yīng)對(duì)機(jī)器人、工業(yè)制造、未知 “游戲規(guī)則”的現(xiàn)實(shí)問題所帶來的挑戰(zhàn),我們拭目以待。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,游戲

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知