設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AlphaGo Zero證明,機(jī)器無(wú)需幫助即可成為超人

2017/10/19 14:40:09 來(lái)源:新浪科技 作者:斯眉 責(zé)編:遠(yuǎn)洋

導(dǎo)語(yǔ):《麻省理工科技評(píng)論》(MIT Technology Review)、《Slate》、Quartz、Gear of Biz等美國(guó)媒體今日發(fā)表文章稱,用不了多長(zhǎng)時(shí)間,AlphaGo將不再是地球上最好的棋手。新式高超的人工智能程序版本AlphaGo Zero已經(jīng)出現(xiàn),它堪稱怪物。它從零開始,面對(duì)的只是一張空白棋盤和游戲規(guī)則。它無(wú)師自通,僅僅通過(guò)自學(xué)使自己的游戲技能得以提高。但是它從來(lái)都不僅僅關(guān)乎棋盤游戲,未來(lái)將會(huì)在更多領(lǐng)域發(fā)揮作用。

以下為文章主要內(nèi)容:

采用新的機(jī)器學(xué)習(xí)形式,升級(jí)版人工智能AlphaGo Zero可以自學(xué)圍棋棋譜中的一招一式。

用不了多長(zhǎng)時(shí)間,AlphaGo將不再是地球上最好的棋手。新式高超的人工智能程序版本已經(jīng)出現(xiàn),它堪稱怪物:在一場(chǎng)白熱化對(duì)決中,AlphaGo Zero以100:0的不敗戰(zhàn)績(jī)絕殺“前輩”。

真正炫酷之處在于Alphabet Zero是如何做到這一點(diǎn)的。原來(lái)的AlphaGo需要與人類專家進(jìn)行成千上萬(wàn)次對(duì)弈,才能從中獲取數(shù)據(jù),Alphabet Zero則截然不同。雖然它也是由Alphabet旗下的子公司DeepMind開發(fā)的,但它從零開始,面對(duì)的只是一張空白棋盤和游戲規(guī)則。它無(wú)師自通,僅僅通過(guò)自學(xué)使自己的游戲技能得以提高。

這種新程序代表著人類在建造真正智能化機(jī)器方面向前邁進(jìn)了一步,因?yàn)榧词乖跊](méi)有大量訓(xùn)練數(shù)據(jù)的情況下,機(jī)器也需要找出解決困難問(wèn)題的方法。

“最引人注目的一點(diǎn)是,我們不再需要任何人工數(shù)據(jù),”DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)說(shuō)。哈薩比斯認(rèn)為,建造Alphago Zero的技術(shù)已經(jīng)足夠強(qiáng)大,可以應(yīng)用在現(xiàn)實(shí)世界,例如藥物發(fā)現(xiàn)與材料科學(xué)等一些有必要繼續(xù)探索各種可能性的行業(yè)。Alphago Zero的相關(guān)研究成果發(fā)表在今天的《自然》雜志上。

值得注意的是,在自學(xué)過(guò)程中,Alphago Zero發(fā)現(xiàn)了許多人類圍棋選手在過(guò)去幾千年中形成的訣竅和技術(shù)?!霸趲滋斓臅r(shí)間里,它重新找到了已知的最佳玩法,在最后一天,甚至在此之上發(fā)現(xiàn)了更好的東西,”哈薩比斯說(shuō)?!翱吹竭@一切,感覺(jué)很酷?!?/p>

DeepMind公司總部位于倫敦,2014年被谷歌收購(gòu)。該公司專注于利用游戲、模擬和機(jī)器學(xué)習(xí)在人工智能領(lǐng)域取得巨大進(jìn)步;迄今為止,他們已經(jīng)聘請(qǐng)了數(shù)百名AI研究人員共同追尋這一目標(biāo)。哈薩比斯說(shuō),大約15人參與AlphaGo Zero的研發(fā),耗費(fèi)的計(jì)算資源估計(jì)達(dá)數(shù)百萬(wàn)美元。

AlphaGo和AlphaGo Zero都采用一種被稱之為強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法及深層神經(jīng)網(wǎng)絡(luò)系統(tǒng)。強(qiáng)化學(xué)習(xí)的靈感來(lái)源于動(dòng)物可通過(guò)實(shí)驗(yàn)和反饋進(jìn)行學(xué)習(xí),DeepMind已經(jīng)使用這種技術(shù),在簡(jiǎn)單的雅達(dá)利游戲有著超人的表現(xiàn)。

然而,掌握圍棋有著特別重要的意義,因?yàn)閲迨謴?fù)雜,最好的棋手可以憑借本能落子。換句話說(shuō),一盤好棋很難用代碼來(lái)解釋或?qū)懗鰜?lái)。

圍棋中各種變數(shù)的數(shù)量,甚至超過(guò)了宇宙中原子的數(shù)量

毫無(wú)疑問(wèn),AlphaGo Zero在圍棋世界標(biāo)志著顛覆性進(jìn)步,但是,它對(duì)世界其他領(lǐng)域有什么潛在影響?麻省理工學(xué)院計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的研究生尼克·海因斯(Nick Hynes)認(rèn)為,在一段時(shí)間內(nèi),它只是一種專門工具,不太可能對(duì)我們的日常生活造成沖擊。

“到目前為止,該算法只適用于采取簡(jiǎn)單幾個(gè)步驟就能解決的問(wèn)題,如果要將其運(yùn)用于移動(dòng)等連續(xù)控制問(wèn)題,那就需要加以改進(jìn),”海因斯告訴Gizmodo?!岸?,它要求你具備非常好的環(huán)境模型。在這種情況下,它差不多了解所有規(guī)則。這就像你擁有一個(gè)機(jī)器人,你可以準(zhǔn)確地預(yù)測(cè)它的行動(dòng)結(jié)果,但在不完美的現(xiàn)實(shí)系統(tǒng)中,它是不靈的?!?/p>

他說(shuō),好消息是目前有幾項(xiàng)人工智能研究正在致力于解決上述兩個(gè)問(wèn)題(例如機(jī)器學(xué)習(xí)、進(jìn)化算法等),所以,它實(shí)際上只是個(gè)集成問(wèn)題。海因斯說(shuō),“這里的真正關(guān)鍵在于技術(shù)?!?/p>

“正如預(yù)期和期望的那樣,我們正在與獲得一堆人類標(biāo)記數(shù)據(jù)并訓(xùn)練一種模型來(lái)模仿它的經(jīng)典模式漸行漸遠(yuǎn),”他說(shuō),“我們?cè)谶@里看到的是一個(gè)毫無(wú)人類偏見和預(yù)設(shè)的模型:它可以從它認(rèn)為最優(yōu)的東西中學(xué)習(xí),可能比我們自己對(duì)這個(gè)概念的看法更加細(xì)致入微。如同一種外星文明發(fā)明了自己的數(shù)學(xué),允許它去做像時(shí)間旅行之類的事情,”對(duì)此他補(bǔ)充說(shuō),“盡管我們距離奇點(diǎn)還很遠(yuǎn),但我們肯定正在朝著那個(gè)方向前進(jìn)。”

正如海因斯所承認(rèn)的,這一最新突破并不意味著技術(shù)奇點(diǎn)(即在未來(lái)某個(gè)假定時(shí)間,超過(guò)人類的機(jī)器智能實(shí)現(xiàn)爆炸性增長(zhǎng))即將來(lái)臨,但它應(yīng)該讓人們停下思想的腳步。一旦我們教一種系統(tǒng)學(xué)會(huì)游戲規(guī)則或某一現(xiàn)實(shí)世界問(wèn)題的強(qiáng)制規(guī)定,增強(qiáng)學(xué)習(xí)的力量將使其可以簡(jiǎn)單地按下開始按鈕,讓系統(tǒng)做余下工作。然后,它將找出在這項(xiàng)任務(wù)中取得成功的最佳方法,設(shè)計(jì)出超越人類能力、甚至可能是人類理解能力的解決方案和戰(zhàn)略。

DeepMind研究人員在其論文中所總結(jié)道:“我們的研究結(jié)果全面展示了即使在最具挑戰(zhàn)性的領(lǐng)域,純粹的強(qiáng)化學(xué)習(xí)方法也是完全可行的:不借助人類的示范或指導(dǎo),不用學(xué)習(xí)超越基本規(guī)則的知識(shí),就可以培養(yǎng)出超人。”

而事實(shí)上,現(xiàn)在人類玩家已經(jīng)無(wú)法在國(guó)際象棋、圍棋等游戲中獨(dú)占鰲頭,可以說(shuō),我們已經(jīng)進(jìn)入了超級(jí)智能的時(shí)代。這一最新突破是對(duì)未來(lái)的最細(xì)微暗示。

加拿大艾伯塔大學(xué)的馬丁·穆勒(Martin Mueller)教授曾對(duì)圍棋軟件做出重要貢獻(xiàn),AlphaGo Zero的設(shè)計(jì)給他留下了深刻印象,認(rèn)為它使強(qiáng)化學(xué)習(xí)更上層樓。他說(shuō):“這種架構(gòu)比以前的版本更簡(jiǎn)單,功能更強(qiáng)大。”

AlphaGo從來(lái)都不僅僅關(guān)乎棋盤游戲。

AlphaGo Zero不是第一種可自主運(yùn)行的算法——埃隆·馬斯克旗下的非營(yíng)利機(jī)構(gòu)OpenAI也采用了類似技術(shù)來(lái)訓(xùn)練一種AI程序玩視頻游戲——但它的能力表明,它是迄今為止最強(qiáng)大的技術(shù)實(shí)例之一。

“藥物發(fā)現(xiàn)、蛋白質(zhì)、量子化學(xué)、材料設(shè)計(jì)——材料設(shè)計(jì),想想看,也許在室溫下就可以制造出超導(dǎo)體,”哈薩比斯說(shuō),他指的是一種可完美導(dǎo)電的假想金屬。

DeepMind說(shuō)不會(huì)公布代碼,因?yàn)樗赡鼙挥糜谄渌鈭D。哈薩比斯說(shuō),研究人員可以從《自然》雜志上復(fù)制部分代碼。

該領(lǐng)域的其他人認(rèn)為,這種方法簡(jiǎn)單得令人吃驚,預(yù)示著該算法可適用于其他領(lǐng)域。OpenAI的AI研究科學(xué)家蒂姆·薩里曼斯(Tim Salimans)在發(fā)給外媒的電子郵件中指出,簡(jiǎn)單而常見的方法在AI研究中非常有價(jià)值,因?yàn)椴恍枰冻龈嗯涂梢詾槠渌麊?wèn)題帶來(lái)同樣的解決方法。

“我認(rèn)為將其定性為‘普遍適用于當(dāng)今的技術(shù)優(yōu)勢(shì)’是公平的,”薩里曼斯說(shuō)?!爱?dāng)然了,盡管它不足以直接應(yīng)用于其他問(wèn)題,但可以將其視為解決其他問(wèn)題的第一步,這種看法不無(wú)道理。”

強(qiáng)化學(xué)習(xí)也顯示出人們有可能在許多其他環(huán)境(包括在一些手工編程不現(xiàn)實(shí)的地方)實(shí)現(xiàn)機(jī)器編程自動(dòng)化。通過(guò)測(cè)試已證明,運(yùn)用這項(xiàng)技術(shù)可以教會(huì)機(jī)器人抓取笨重物體,并可以對(duì)正在運(yùn)行的硬件重新配置,以保存數(shù)據(jù)中心所需能量。然而,在許多實(shí)際情況下,可能沒(méi)有大量例子可供學(xué)習(xí),這意味著機(jī)器必須自學(xué)成材,這正是AlphaGo Zero令人感興趣之處。

“不使用人工數(shù)據(jù)或人工專長(zhǎng),我們就可以真正突破人類知識(shí)的限制,”DeepMind公司首席研究員、倫敦大學(xué)學(xué)院教授大衛(wèi)·西爾佛(David Silver)說(shuō),“它能運(yùn)用基本原理自行創(chuàng)造知識(shí)?!?/p>

DeepMind已是人工智能界的寵兒,而其最新成果一定會(huì)搶占媒體頭條,并引發(fā)議論,促使人工智能形式變得更強(qiáng)大。

盡管如此,人們還是有理由對(duì)這一成果持謹(jǐn)慎態(tài)度。華盛頓大學(xué)教授佩德羅·多明戈斯(Pedro Domingos)指出,與人類專家相比,這款程序仍然需要對(duì)弈上百萬(wàn)次,才能真正掌握圍棋。這表明,在某種程度上,這款程序所使用的智能系統(tǒng)與人類存在根本不同。

“這是一個(gè)很好的例子,足以顯示近期人們?cè)谏钊雽W(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面的進(jìn)步,但我不想過(guò)分解讀,認(rèn)為機(jī)器可以不借助人類知識(shí)而自我學(xué)習(xí),”多明戈斯說(shuō)?!叭绻鸄lphaGo在奪得冠軍前,練習(xí)次數(shù)與(韓國(guó)傳奇冠軍)李世石(Lee Sedol)大致一樣多,那才令人震撼呢!我們離那一步還遠(yuǎn)著呢?!?/p>

事實(shí)上,西爾佛和哈薩比斯都承認(rèn),在機(jī)器掌握智能的過(guò)程中,如何通過(guò)更少的數(shù)據(jù)進(jìn)行學(xué)習(xí)是至關(guān)重要的。這可能涉及開發(fā)新方法,讓機(jī)器將在一個(gè)領(lǐng)域?qū)W到的知識(shí)轉(zhuǎn)移到另一個(gè)領(lǐng)域,或者從觀察他人(包括人類和其他AI)中學(xué)習(xí)。

但是,盡管這項(xiàng)工作尚待完成,哈薩比斯希望在10年內(nèi),人工智能可以在解決科學(xué)、醫(yī)藥或其他領(lǐng)域的重要問(wèn)題中發(fā)揮重大作用?!拔蚁M@些算法和未來(lái)的版本能夠成為我們向科學(xué)和醫(yī)學(xué)前沿推進(jìn)的常規(guī)工作伙伴,”他說(shuō)?!耙苍S未來(lái)所有產(chǎn)品的設(shè)計(jì)和發(fā)現(xiàn)都離不開這些算法,它們將與聰明的人類一起工作。”

人們有很多理由為AI擔(dān)心,但DeepMind的AI并不能自主編程,毀滅人類。它們自主編程的目的是將一些無(wú)聊乏味的工作從開發(fā)人員的肩頭卸下來(lái),讓后者以一種嶄新的視角來(lái)觀察問(wèn)題和數(shù)據(jù)集。令人驚訝的是人工智能在過(guò)去幾年發(fā)展神速,但從本周開始人們就可以清楚地看到,現(xiàn)在的進(jìn)步將會(huì)更快。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AlphaGo Zero,AlphaGo

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知