谷歌 DeepMind MuZero 人工智能可以不學(xué)規(guī)則掌握游戲

2020/12/24 17:29:55 來(lái)源：IT之家作者：信鴿責(zé)編：信鴿

評(píng)論：

IT之家12月24日消息谷歌的 DeepMind 人工智能目前已經(jīng)進(jìn)化到第四代，名為 MuZero。最新的版本可以無(wú)需學(xué)習(xí)棋類(lèi)等游戲規(guī)則便能掌握游戲。該技術(shù)能夠應(yīng)用于機(jī)器人技術(shù)、工業(yè)系統(tǒng)以及混亂的現(xiàn)實(shí)世界。

早在 2016 年，AlphaGo 先后擊敗圍棋世界冠軍李世石、柯潔，這僅僅是 DeepMind 人工智能的初代版本，需要事先輸入大量人類(lèi)對(duì)弈數(shù)據(jù)、規(guī)則數(shù)據(jù)進(jìn)行訓(xùn)練，然后才可以進(jìn)行實(shí)戰(zhàn)。AlphaGo 是首個(gè)能夠利用神經(jīng)網(wǎng)絡(luò)、樹(shù)狀搜索完全掌握圍棋的人工智能。

此后于 2017 年推出的第二代 AlphaGo Zero，能夠不借助人類(lèi)對(duì)弈數(shù)據(jù)，僅僅事先輸入規(guī)則便可自行訓(xùn)練，最終掌握圍棋。

谷歌第三代的人工智能 AlphaZero，不僅可以自主學(xué)會(huì)圍棋，也僅僅依靠事先了解規(guī)則，掌握了國(guó)際象棋、日本將棋。

根據(jù)谷歌發(fā)表在《自然》雜志的文章顯示，第四代人工智能 MuZero 可以在未知規(guī)則的情況下學(xué)會(huì)上述四種棋類(lèi)，規(guī)劃制勝策略。此外，還能夠掌握掌機(jī)游戲 Atari。

DeepMind 公司表示，多年來(lái)研究人員一直在尋找一種方法，既可以學(xué)習(xí)建立用于解釋目前環(huán)境的模型，也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。直到今天，大多數(shù)方法都難以在 Atari 這種游戲中進(jìn)行有效規(guī)劃。

MuZero 首先在 2019 年推出，通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面，來(lái)學(xué)習(xí)建立一個(gè)模型，并解決問(wèn)題。通過(guò)將這種方法與 AlphaZero 強(qiáng)大的搜索樹(shù)技術(shù)相結(jié)合，MuZero 的能力實(shí)現(xiàn)了重大飛躍。此外，MuZero 還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。具體來(lái)說(shuō)，MuZero 對(duì)環(huán)境中至關(guān)重要的三個(gè)問(wèn)題來(lái)計(jì)劃：

價(jià)值：現(xiàn)在所處的位置有多好？
策略：哪一種行動(dòng)是最好的？
獎(jiǎng)勵(lì)：最后一步的動(dòng)作結(jié)果有多好？

IT之家了解到，Atari 公司于 1976 年在美國(guó)推出了 Atari 2600 游戲機(jī)，這是史上第一部真正意義上的家用游戲主機(jī)，其整個(gè)生命周期持續(xù)到 1992 年，共售出三千萬(wàn)臺(tái)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌 DeepMind MuZero 人工智能可以不學(xué)規(guī)則掌握游戲

相關(guān)文章