AlphaGo Zero證明，機(jī)器無(wú)需幫助即可成為超人

2017/10/19 14:40:09 來(lái)源：新浪科技作者：斯眉責(zé)編：遠(yuǎn)洋

評(píng)論：

導(dǎo)語(yǔ)：《麻省理工科技評(píng)論》（MIT Technology Review）、《Slate》、Quartz、Gear of Biz等美國(guó)媒體今日發(fā)表文章稱，用不了多長(zhǎng)時(shí)間，AlphaGo將不再是地球上最好的棋手。新式高超的人工智能程序版本AlphaGo Zero已經(jīng)出現(xiàn)，它堪稱怪物。它從零開始，面對(duì)的只是一張空白棋盤和游戲規(guī)則。它無(wú)師自通，僅僅通過(guò)自學(xué)使自己的游戲技能得以提高。但是它從來(lái)都不僅僅關(guān)乎棋盤游戲，未來(lái)將會(huì)在更多領(lǐng)域發(fā)揮作用。

以下為文章主要內(nèi)容：

采用新的機(jī)器學(xué)習(xí)形式，升級(jí)版人工智能AlphaGo Zero可以自學(xué)圍棋棋譜中的一招一式。

用不了多長(zhǎng)時(shí)間，AlphaGo將不再是地球上最好的棋手。新式高超的人工智能程序版本已經(jīng)出現(xiàn)，它堪稱怪物：在一場(chǎng)白熱化對(duì)決中，AlphaGo Zero以100：0的不敗戰(zhàn)績(jī)絕殺“前輩”。

真正炫酷之處在于Alphabet Zero是如何做到這一點(diǎn)的。原來(lái)的AlphaGo需要與人類專家進(jìn)行成千上萬(wàn)次對(duì)弈，才能從中獲取數(shù)據(jù)，Alphabet Zero則截然不同。雖然它也是由Alphabet旗下的子公司DeepMind開發(fā)的，但它從零開始，面對(duì)的只是一張空白棋盤和游戲規(guī)則。它無(wú)師自通，僅僅通過(guò)自學(xué)使自己的游戲技能得以提高。

這種新程序代表著人類在建造真正智能化機(jī)器方面向前邁進(jìn)了一步，因?yàn)榧词乖跊](méi)有大量訓(xùn)練數(shù)據(jù)的情況下，機(jī)器也需要找出解決困難問(wèn)題的方法。

“最引人注目的一點(diǎn)是，我們不再需要任何人工數(shù)據(jù)，”DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯（Demis Hassabis）說(shuō)。哈薩比斯認(rèn)為，建造Alphago Zero的技術(shù)已經(jīng)足夠強(qiáng)大，可以應(yīng)用在現(xiàn)實(shí)世界，例如藥物發(fā)現(xiàn)與材料科學(xué)等一些有必要繼續(xù)探索各種可能性的行業(yè)。Alphago Zero的相關(guān)研究成果發(fā)表在今天的《自然》雜志上。

值得注意的是，在自學(xué)過(guò)程中，Alphago Zero發(fā)現(xiàn)了許多人類圍棋選手在過(guò)去幾千年中形成的訣竅和技術(shù)?！霸趲滋斓臅r(shí)間里，它重新找到了已知的最佳玩法，在最后一天，甚至在此之上發(fā)現(xiàn)了更好的東西，”哈薩比斯說(shuō)?！翱吹竭@一切，感覺(jué)很酷?！?/p>

DeepMind公司總部位于倫敦，2014年被谷歌收購(gòu)。該公司專注于利用游戲、模擬和機(jī)器學(xué)習(xí)在人工智能領(lǐng)域取得巨大進(jìn)步；迄今為止，他們已經(jīng)聘請(qǐng)了數(shù)百名AI研究人員共同追尋這一目標(biāo)。哈薩比斯說(shuō)，大約15人參與AlphaGo Zero的研發(fā)，耗費(fèi)的計(jì)算資源估計(jì)達(dá)數(shù)百萬(wàn)美元。

AlphaGo和AlphaGo Zero都采用一種被稱之為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法及深層神經(jīng)網(wǎng)絡(luò)系統(tǒng)。強(qiáng)化學(xué)習(xí)的靈感來(lái)源于動(dòng)物可通過(guò)實(shí)驗(yàn)和反饋進(jìn)行學(xué)習(xí)，DeepMind已經(jīng)使用這種技術(shù)，在簡(jiǎn)單的雅達(dá)利游戲有著超人的表現(xiàn)。

然而，掌握圍棋有著特別重要的意義，因?yàn)閲迨謴?fù)雜，最好的棋手可以憑借本能落子。換句話說(shuō)，一盤好棋很難用代碼來(lái)解釋或?qū)懗鰜?lái)。

圍棋中各種變數(shù)的數(shù)量，甚至超過(guò)了宇宙中原子的數(shù)量

毫無(wú)疑問(wèn)，AlphaGo Zero在圍棋世界標(biāo)志著顛覆性進(jìn)步，但是，它對(duì)世界其他領(lǐng)域有什么潛在影響？麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室（CSAIL）的研究生尼克·海因斯（Nick Hynes）認(rèn)為，在一段時(shí)間內(nèi)，它只是一種專門工具，不太可能對(duì)我們的日常生活造成沖擊。

“到目前為止，該算法只適用于采取簡(jiǎn)單幾個(gè)步驟就能解決的問(wèn)題，如果要將其運(yùn)用于移動(dòng)等連續(xù)控制問(wèn)題，那就需要加以改進(jìn)，”海因斯告訴Gizmodo?！岸?，它要求你具備非常好的環(huán)境模型。在這種情況下，它差不多了解所有規(guī)則。這就像你擁有一個(gè)機(jī)器人，你可以準(zhǔn)確地預(yù)測(cè)它的行動(dòng)結(jié)果，但在不完美的現(xiàn)實(shí)系統(tǒng)中，它是不靈的?！?/p>

他說(shuō)，好消息是目前有幾項(xiàng)人工智能研究正在致力于解決上述兩個(gè)問(wèn)題（例如機(jī)器學(xué)習(xí)、進(jìn)化算法等），所以，它實(shí)際上只是個(gè)集成問(wèn)題。海因斯說(shuō)，“這里的真正關(guān)鍵在于技術(shù)?！?/p>

“正如預(yù)期和期望的那樣，我們正在與獲得一堆人類標(biāo)記數(shù)據(jù)并訓(xùn)練一種模型來(lái)模仿它的經(jīng)典模式漸行漸遠(yuǎn)，”他說(shuō)，“我們?cè)谶@里看到的是一個(gè)毫無(wú)人類偏見和預(yù)設(shè)的模型：它可以從它認(rèn)為最優(yōu)的東西中學(xué)習(xí)，可能比我們自己對(duì)這個(gè)概念的看法更加細(xì)致入微。如同一種外星文明發(fā)明了自己的數(shù)學(xué)，允許它去做像時(shí)間旅行之類的事情，”對(duì)此他補(bǔ)充說(shuō)，“盡管我們距離奇點(diǎn)還很遠(yuǎn)，但我們肯定正在朝著那個(gè)方向前進(jìn)。”

正如海因斯所承認(rèn)的，這一最新突破并不意味著技術(shù)奇點(diǎn)（即在未來(lái)某個(gè)假定時(shí)間，超過(guò)人類的機(jī)器智能實(shí)現(xiàn)爆炸性增長(zhǎng)）即將來(lái)臨，但它應(yīng)該讓人們停下思想的腳步。一旦我們教一種系統(tǒng)學(xué)會(huì)游戲規(guī)則或某一現(xiàn)實(shí)世界問(wèn)題的強(qiáng)制規(guī)定，增強(qiáng)學(xué)習(xí)的力量將使其可以簡(jiǎn)單地按下開始按鈕，讓系統(tǒng)做余下工作。然后，它將找出在這項(xiàng)任務(wù)中取得成功的最佳方法，設(shè)計(jì)出超越人類能力、甚至可能是人類理解能力的解決方案和戰(zhàn)略。

DeepMind研究人員在其論文中所總結(jié)道：“我們的研究結(jié)果全面展示了即使在最具挑戰(zhàn)性的領(lǐng)域，純粹的強(qiáng)化學(xué)習(xí)方法也是完全可行的：不借助人類的示范或指導(dǎo)，不用學(xué)習(xí)超越基本規(guī)則的知識(shí)，就可以培養(yǎng)出超人。”

而事實(shí)上，現(xiàn)在人類玩家已經(jīng)無(wú)法在國(guó)際象棋、圍棋等游戲中獨(dú)占鰲頭，可以說(shuō)，我們已經(jīng)進(jìn)入了超級(jí)智能的時(shí)代。這一最新突破是對(duì)未來(lái)的最細(xì)微暗示。

加拿大艾伯塔大學(xué)的馬丁·穆勒（Martin Mueller）教授曾對(duì)圍棋軟件做出重要貢獻(xiàn)，AlphaGo Zero的設(shè)計(jì)給他留下了深刻印象，認(rèn)為它使強(qiáng)化學(xué)習(xí)更上層樓。他說(shuō)：“這種架構(gòu)比以前的版本更簡(jiǎn)單，功能更強(qiáng)大。”

AlphaGo從來(lái)都不僅僅關(guān)乎棋盤游戲。

AlphaGo Zero不是第一種可自主運(yùn)行的算法——埃隆·馬斯克旗下的非營(yíng)利機(jī)構(gòu)OpenAI也采用了類似技術(shù)來(lái)訓(xùn)練一種AI程序玩視頻游戲——但它的能力表明，它是迄今為止最強(qiáng)大的技術(shù)實(shí)例之一。

“藥物發(fā)現(xiàn)、蛋白質(zhì)、量子化學(xué)、材料設(shè)計(jì)——材料設(shè)計(jì)，想想看，也許在室溫下就可以制造出超導(dǎo)體，”哈薩比斯說(shuō)，他指的是一種可完美導(dǎo)電的假想金屬。

DeepMind說(shuō)不會(huì)公布代碼，因?yàn)樗赡鼙挥糜谄渌鈭D。哈薩比斯說(shuō)，研究人員可以從《自然》雜志上復(fù)制部分代碼。

該領(lǐng)域的其他人認(rèn)為，這種方法簡(jiǎn)單得令人吃驚，預(yù)示著該算法可適用于其他領(lǐng)域。OpenAI的AI研究科學(xué)家蒂姆·薩里曼斯（Tim Salimans）在發(fā)給外媒的電子郵件中指出，簡(jiǎn)單而常見的方法在AI研究中非常有價(jià)值，因?yàn)椴恍枰冻龈嗯涂梢詾槠渌麊?wèn)題帶來(lái)同樣的解決方法。

“我認(rèn)為將其定性為‘普遍適用于當(dāng)今的技術(shù)優(yōu)勢(shì)’是公平的，”薩里曼斯說(shuō)?！爱?dāng)然了，盡管它不足以直接應(yīng)用于其他問(wèn)題，但可以將其視為解決其他問(wèn)題的第一步，這種看法不無(wú)道理。”

強(qiáng)化學(xué)習(xí)也顯示出人們有可能在許多其他環(huán)境（包括在一些手工編程不現(xiàn)實(shí)的地方）實(shí)現(xiàn)機(jī)器編程自動(dòng)化。通過(guò)測(cè)試已證明，運(yùn)用這項(xiàng)技術(shù)可以教會(huì)機(jī)器人抓取笨重物體，并可以對(duì)正在運(yùn)行的硬件重新配置，以保存數(shù)據(jù)中心所需能量。然而，在許多實(shí)際情況下，可能沒(méi)有大量例子可供學(xué)習(xí)，這意味著機(jī)器必須自學(xué)成材，這正是AlphaGo Zero令人感興趣之處。

“不使用人工數(shù)據(jù)或人工專長(zhǎng)，我們就可以真正突破人類知識(shí)的限制，”DeepMind公司首席研究員、倫敦大學(xué)學(xué)院教授大衛(wèi)·西爾佛（David Silver）說(shuō)，“它能運(yùn)用基本原理自行創(chuàng)造知識(shí)?！?/p>

DeepMind已是人工智能界的寵兒，而其最新成果一定會(huì)搶占媒體頭條，并引發(fā)議論，促使人工智能形式變得更強(qiáng)大。

盡管如此，人們還是有理由對(duì)這一成果持謹(jǐn)慎態(tài)度。華盛頓大學(xué)教授佩德羅·多明戈斯（Pedro Domingos）指出，與人類專家相比，這款程序仍然需要對(duì)弈上百萬(wàn)次，才能真正掌握圍棋。這表明，在某種程度上，這款程序所使用的智能系統(tǒng)與人類存在根本不同。

“這是一個(gè)很好的例子，足以顯示近期人們?cè)谏钊雽W(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面的進(jìn)步，但我不想過(guò)分解讀，認(rèn)為機(jī)器可以不借助人類知識(shí)而自我學(xué)習(xí)，”多明戈斯說(shuō)?！叭绻鸄lphaGo在奪得冠軍前，練習(xí)次數(shù)與（韓國(guó)傳奇冠軍）李世石（Lee Sedol）大致一樣多，那才令人震撼呢！我們離那一步還遠(yuǎn)著呢?！?/p>

事實(shí)上，西爾佛和哈薩比斯都承認(rèn)，在機(jī)器掌握智能的過(guò)程中，如何通過(guò)更少的數(shù)據(jù)進(jìn)行學(xué)習(xí)是至關(guān)重要的。這可能涉及開發(fā)新方法，讓機(jī)器將在一個(gè)領(lǐng)域?qū)W到的知識(shí)轉(zhuǎn)移到另一個(gè)領(lǐng)域，或者從觀察他人（包括人類和其他AI）中學(xué)習(xí)。

但是，盡管這項(xiàng)工作尚待完成，哈薩比斯希望在10年內(nèi)，人工智能可以在解決科學(xué)、醫(yī)藥或其他領(lǐng)域的重要問(wèn)題中發(fā)揮重大作用?！拔蚁Ｍ@些算法和未來(lái)的版本能夠成為我們向科學(xué)和醫(yī)學(xué)前沿推進(jìn)的常規(guī)工作伙伴，”他說(shuō)?！耙苍S未來(lái)所有產(chǎn)品的設(shè)計(jì)和發(fā)現(xiàn)都離不開這些算法，它們將與聰明的人類一起工作。”

人們有很多理由為AI擔(dān)心，但DeepMind的AI并不能自主編程，毀滅人類。它們自主編程的目的是將一些無(wú)聊乏味的工作從開發(fā)人員的肩頭卸下來(lái)，讓后者以一種嶄新的視角來(lái)觀察問(wèn)題和數(shù)據(jù)集。令人驚訝的是人工智能在過(guò)去幾年發(fā)展神速，但從本周開始人們就可以清楚地看到，現(xiàn)在的進(jìn)步將會(huì)更快。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AlphaGo Zero證明，機(jī)器無(wú)需幫助即可成為超人

相關(guān)文章

AlphaGo Zero證明，機(jī)器無(wú)需幫助即可成為超人