設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 DeepMind MuZero 人工智能可以不學(xué)規(guī)則掌握游戲

2020/12/24 17:29:55 來(lái)源:IT之家 作者:信鴿 責(zé)編:信鴿

IT之家12月24日消息 谷歌的 DeepMind 人工智能目前已經(jīng)進(jìn)化到第四代,名為 MuZero。最新的版本可以無(wú)需學(xué)習(xí)棋類(lèi)等游戲規(guī)則便能掌握游戲。該技術(shù)能夠應(yīng)用于機(jī)器人技術(shù)、工業(yè)系統(tǒng)以及混亂的現(xiàn)實(shí)世界。

早在 2016 年,AlphaGo 先后擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智能的初代版本,需要事先輸入大量人類(lèi)對(duì)弈數(shù)據(jù)、規(guī)則數(shù)據(jù)進(jìn)行訓(xùn)練,然后才可以進(jìn)行實(shí)戰(zhàn)。AlphaGo 是首個(gè)能夠利用神經(jīng)網(wǎng)絡(luò)、樹(shù)狀搜索完全掌握圍棋的人工智能。

此后于 2017 年推出的第二代 AlphaGo Zero,能夠不借助人類(lèi)對(duì)弈數(shù)據(jù),僅僅事先輸入規(guī)則便可自行訓(xùn)練,最終掌握圍棋。

谷歌第三代的人工智能 AlphaZero,不僅可以自主學(xué)會(huì)圍棋,也僅僅依靠事先了解規(guī)則,掌握了國(guó)際象棋、日本將棋。

根據(jù)谷歌發(fā)表在《自然》雜志的文章顯示,第四代人工智能 MuZero 可以在未知規(guī)則的情況下學(xué)會(huì)上述四種棋類(lèi),規(guī)劃制勝策略。此外,還能夠掌握掌機(jī)游戲 Atari。

DeepMind 公司表示,多年來(lái)研究人員一直在尋找一種方法,既可以學(xué)習(xí)建立用于解釋目前環(huán)境的模型,也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。直到今天,大多數(shù)方法都難以在 Atari 這種游戲中進(jìn)行有效規(guī)劃。

MuZero 首先在 2019 年推出,通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面,來(lái)學(xué)習(xí)建立一個(gè)模型,并解決問(wèn)題。通過(guò)將這種方法與 AlphaZero 強(qiáng)大的搜索樹(shù)技術(shù)相結(jié)合,MuZero 的能力實(shí)現(xiàn)了重大飛躍。此外,MuZero 還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。具體來(lái)說(shuō),MuZero 對(duì)環(huán)境中至關(guān)重要的三個(gè)問(wèn)題來(lái)計(jì)劃:

  • 價(jià)值:現(xiàn)在所處的位置有多好?

  • 策略:哪一種行動(dòng)是最好的?

  • 獎(jiǎng)勵(lì):最后一步的動(dòng)作結(jié)果有多好?

IT之家了解到,Atari 公司于 1976 年在美國(guó)推出了 Atari 2600 游戲機(jī),這是史上第一部真正意義上的家用游戲主機(jī),其整個(gè)生命周期持續(xù)到 1992 年,共售出三千萬(wàn)臺(tái)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepMind,AI,谷歌

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知