設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AlphaGo新版本問世:自學(xué)40天就能勝贏柯潔的版本

2017/10/19 7:25:51 來源:網(wǎng)易科技 作者:小小 責(zé)編:仲平

網(wǎng)易科技訊 10月19日消息,專注于推進(jìn)人工智能(AI)研究的谷歌子公司DeepMind今天發(fā)布了一款新版本的AlphaGo程序,它能通過自學(xué)玩轉(zhuǎn)多種游戲。這套系統(tǒng)名為“AlphaGo Zero”,它通過一種名為“強化學(xué)習(xí)”的機器學(xué)習(xí)技術(shù),可以在與自己游戲中吸取教訓(xùn)。

隨著AlphaGo Zero被不斷訓(xùn)練時,它開始在圍棋游戲中學(xué)習(xí)先進(jìn)的概念,并挑選出一些有利的位置和序列。經(jīng)過三天的訓(xùn)練,該系統(tǒng)能夠擊敗AlphaGo Lee,后者是去年擊敗了韓國選手李世石(Lee Sedol)的DeepMind軟件。經(jīng)過大約40天的訓(xùn)練(約2900萬場自玩游戲),AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。

研究結(jié)果表明,在不同技術(shù)的有效性方面,AI領(lǐng)域還有很多有待研究的地方。AlphaGo Zero的開發(fā)使用了許多與AlphaGo Master相似的方法,但在開始進(jìn)行自玩游戲之前,它就開始被使用人類數(shù)據(jù)進(jìn)行訓(xùn)練。值得注意的是,盡管AlphaGo Zero在幾周的訓(xùn)練中掌握了幾個關(guān)鍵概念,但它的學(xué)習(xí)方式不同于人類棋手。

此外,AlphaGo Zero比它的許多前輩都要高效得多。AlphaGo Lee需要使用幾臺機器和48個谷歌張量處理單元機器學(xué)習(xí)加速器芯片,該系統(tǒng)的早期版本AlphaGo Fan需要176個GPU。而AlphaGo Zero和AlphaGo Master一樣,只需要一臺機器和4個TPU。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知