設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 DeepMind MuZero 人工智能可以不學規(guī)則掌握游戲

2020/12/24 17:29:55 來源:IT之家 作者:信鴿 責編:信鴿

IT之家12月24日消息 谷歌的 DeepMind 人工智能目前已經進化到第四代,名為 MuZero。最新的版本可以無需學習棋類等游戲規(guī)則便能掌握游戲。該技術能夠應用于機器人技術、工業(yè)系統(tǒng)以及混亂的現(xiàn)實世界。

早在 2016 年,AlphaGo 先后擊敗圍棋世界冠軍李世石、柯潔,這僅僅是 DeepMind 人工智能的初代版本,需要事先輸入大量人類對弈數(shù)據、規(guī)則數(shù)據進行訓練,然后才可以進行實戰(zhàn)。AlphaGo 是首個能夠利用神經網絡、樹狀搜索完全掌握圍棋的人工智能。

此后于 2017 年推出的第二代 AlphaGo Zero,能夠不借助人類對弈數(shù)據,僅僅事先輸入規(guī)則便可自行訓練,最終掌握圍棋。

谷歌第三代的人工智能 AlphaZero,不僅可以自主學會圍棋,也僅僅依靠事先了解規(guī)則,掌握了國際象棋、日本將棋。

根據谷歌發(fā)表在《自然》雜志的文章顯示,第四代人工智能 MuZero 可以在未知規(guī)則的情況下學會上述四種棋類,規(guī)劃制勝策略。此外,還能夠掌握掌機游戲 Atari。

DeepMind 公司表示,多年來研究人員一直在尋找一種方法,既可以學習建立用于解釋目前環(huán)境的模型,也能夠利用這個模型來進行最好的決策。直到今天,大多數(shù)方法都難以在 Atari 這種游戲中進行有效規(guī)劃。

MuZero 首先在 2019 年推出,通過只關注環(huán)境中最重要的一個方面,來學習建立一個模型,并解決問題。通過將這種方法與 AlphaZero 強大的搜索樹技術相結合,MuZero 的能力實現(xiàn)了重大飛躍。此外,MuZero 還利用了前瞻搜索、基于模型的規(guī)劃來解決問題。具體來說,MuZero 對環(huán)境中至關重要的三個問題來計劃:

  • 價值:現(xiàn)在所處的位置有多好?

  • 策略:哪一種行動是最好的?

  • 獎勵:最后一步的動作結果有多好?

IT之家了解到,Atari 公司于 1976 年在美國推出了 Atari 2600 游戲機,這是史上第一部真正意義上的家用游戲主機,其整個生命周期持續(xù)到 1992 年,共售出三千萬臺。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:DeepMind,AI,谷歌

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知