AlphaGo新版本問世：自學(xué)40天就能勝贏柯潔的版本

2017/10/19 7:25:51 來源：網(wǎng)易科技作者：小小責(zé)編：仲平

評論：

網(wǎng)易科技訊 10月19日消息，專注于推進(jìn)人工智能（AI）研究的谷歌子公司DeepMind今天發(fā)布了一款新版本的AlphaGo程序，它能通過自學(xué)玩轉(zhuǎn)多種游戲。這套系統(tǒng)名為“AlphaGo Zero”，它通過一種名為“強化學(xué)習(xí)”的機器學(xué)習(xí)技術(shù)，可以在與自己游戲中吸取教訓(xùn)。

隨著AlphaGo Zero被不斷訓(xùn)練時，它開始在圍棋游戲中學(xué)習(xí)先進(jìn)的概念，并挑選出一些有利的位置和序列。經(jīng)過三天的訓(xùn)練，該系統(tǒng)能夠擊敗AlphaGo Lee，后者是去年擊敗了韓國選手李世石（Lee Sedol）的DeepMind軟件。經(jīng)過大約40天的訓(xùn)練（約2900萬場自玩游戲），AlphaGo Zero擊敗了AlphaGo Master(今年早些時候擊敗了世界冠軍柯潔)。

研究結(jié)果表明，在不同技術(shù)的有效性方面，AI領(lǐng)域還有很多有待研究的地方。AlphaGo Zero的開發(fā)使用了許多與AlphaGo Master相似的方法，但在開始進(jìn)行自玩游戲之前，它就開始被使用人類數(shù)據(jù)進(jìn)行訓(xùn)練。值得注意的是，盡管AlphaGo Zero在幾周的訓(xùn)練中掌握了幾個關(guān)鍵概念，但它的學(xué)習(xí)方式不同于人類棋手。

此外，AlphaGo Zero比它的許多前輩都要高效得多。AlphaGo Lee需要使用幾臺機器和48個谷歌張量處理單元機器學(xué)習(xí)加速器芯片，該系統(tǒng)的早期版本AlphaGo Fan需要176個GPU。而AlphaGo Zero和AlphaGo Master一樣，只需要一臺機器和4個TPU。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮