IT之家12月24日消息 谷歌的 DeepMind 人工智能目前已經(jīng)進(jìn)化到第四代,名為 MuZero。最新的版本可以無(wú)需學(xué)習(xí)棋類(lèi)等游戲規(guī)則便能掌握游戲。該技術(shù)能夠應(yīng)用于機(jī)器人技術(shù)、工業(yè)系統(tǒng)以及混亂的現(xiàn)實(shí)世界。
早在 2016 年,AlphaGo 先后擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智能的初代版本,需要事先輸入大量人類(lèi)對(duì)弈數(shù)據(jù)、規(guī)則數(shù)據(jù)進(jìn)行訓(xùn)練,然后才可以進(jìn)行實(shí)戰(zhàn)。AlphaGo 是首個(gè)能夠利用神經(jīng)網(wǎng)絡(luò)、樹(shù)狀搜索完全掌握圍棋的人工智能。
此后于 2017 年推出的第二代 AlphaGo Zero,能夠不借助人類(lèi)對(duì)弈數(shù)據(jù),僅僅事先輸入規(guī)則便可自行訓(xùn)練,最終掌握圍棋。
谷歌第三代的人工智能 AlphaZero,不僅可以自主學(xué)會(huì)圍棋,也僅僅依靠事先了解規(guī)則,掌握了國(guó)際象棋、日本將棋。
根據(jù)谷歌發(fā)表在《自然》雜志的文章顯示,第四代人工智能 MuZero 可以在未知規(guī)則的情況下學(xué)會(huì)上述四種棋類(lèi),規(guī)劃制勝策略。此外,還能夠掌握掌機(jī)游戲 Atari。
DeepMind 公司表示,多年來(lái)研究人員一直在尋找一種方法,既可以學(xué)習(xí)建立用于解釋目前環(huán)境的模型,也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。直到今天,大多數(shù)方法都難以在 Atari 這種游戲中進(jìn)行有效規(guī)劃。
MuZero 首先在 2019 年推出,通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面,來(lái)學(xué)習(xí)建立一個(gè)模型,并解決問(wèn)題。通過(guò)將這種方法與 AlphaZero 強(qiáng)大的搜索樹(shù)技術(shù)相結(jié)合,MuZero 的能力實(shí)現(xiàn)了重大飛躍。此外,MuZero 還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。具體來(lái)說(shuō),MuZero 對(duì)環(huán)境中至關(guān)重要的三個(gè)問(wèn)題來(lái)計(jì)劃:
價(jià)值:現(xiàn)在所處的位置有多好?
策略:哪一種行動(dòng)是最好的?
獎(jiǎng)勵(lì):最后一步的動(dòng)作結(jié)果有多好?
IT之家了解到,Atari 公司于 1976 年在美國(guó)推出了 Atari 2600 游戲機(jī),這是史上第一部真正意義上的家用游戲主機(jī),其整個(gè)生命周期持續(xù)到 1992 年,共售出三千萬(wàn)臺(tái)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。