網(wǎng)易科技訊 10月19日消息,專注于推進(jìn)人工智能(AI)研究的谷歌子公司DeepMind今天發(fā)布了一款新版本的AlphaGo程序,它能通過自學(xué)玩轉(zhuǎn)多種游戲。這套系統(tǒng)名為“AlphaGo Zero”,它通過一種名為“強化學(xué)習(xí)”的機器學(xué)習(xí)技術(shù),可以在與自己游戲中吸取教訓(xùn)。
隨著AlphaGo Zero被不斷訓(xùn)練時,它開始在圍棋游戲中學(xué)習(xí)先進(jìn)的概念,并挑選出一些有利的位置和序列。經(jīng)過三天的訓(xùn)練,該系統(tǒng)能夠擊敗AlphaGo Lee,后者是去年擊敗了韓國選手李世石(Lee Sedol)的DeepMind軟件。經(jīng)過大約40天的訓(xùn)練(約2900萬場自玩游戲),AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。
研究結(jié)果表明,在不同技術(shù)的有效性方面,AI領(lǐng)域還有很多有待研究的地方。AlphaGo Zero的開發(fā)使用了許多與AlphaGo Master相似的方法,但在開始進(jìn)行自玩游戲之前,它就開始被使用人類數(shù)據(jù)進(jìn)行訓(xùn)練。值得注意的是,盡管AlphaGo Zero在幾周的訓(xùn)練中掌握了幾個關(guān)鍵概念,但它的學(xué)習(xí)方式不同于人類棋手。
此外,AlphaGo Zero比它的許多前輩都要高效得多。AlphaGo Lee需要使用幾臺機器和48個谷歌張量處理單元機器學(xué)習(xí)加速器芯片,該系統(tǒng)的早期版本AlphaGo Fan需要176個GPU。而AlphaGo Zero和AlphaGo Master一樣,只需要一臺機器和4個TPU。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。