設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AlphaZero 黑箱終于被打開!登頂 5 年后,人類揭開它學會下棋的奧秘

量子位 2022/11/17 22:18:05 責編:遠生

AI 如何學到知識的?科學家敲開了它的腦殼看了看。

這兩天,DeepMind 及谷歌大腦一篇文章被《美國國家科學院院刊》(PNAS) 收錄,其內(nèi)容正是以 5 年前發(fā)布的 AlphaZero 為例,研究神經(jīng)網(wǎng)絡(luò)如何獲取并理解國際象棋知識。

在內(nèi)容中,研究者重點關(guān)注了「神經(jīng)網(wǎng)絡(luò)是如何學習的」「知識又如何被量化表示」等問題。

有意思的是,他們發(fā)現(xiàn):

在沒有人類對弈指導下,AlphaZero 仍形成了一套類似專業(yè)棋手才懂的概念體系。研究者還進一步探尋了這些概念何時何處形成。

此外,他們還對比了 AlphaZero 與人類開局棋風的不同。

有網(wǎng)友感慨,這是個影響深遠的工作:

也有人感慨,AlphaZero 能計算任何人類行為特征了?!

欲知更多觀察結(jié)果,往下看。

掀起了神經(jīng)網(wǎng)絡(luò)的頭蓋骨

AlphaZero 于 2017 年由 DeepMind 發(fā)布并一鳴驚人。

這是一種神經(jīng)網(wǎng)絡(luò)驅(qū)動的強化學習器,專精于棋類,內(nèi)部包含了殘差網(wǎng)絡(luò)(ResNet)骨干網(wǎng)及分離的策略及價值 heads。

其輸出函數(shù)可表示如下,z 為國際象棋排布情況:

為研究 AlphaZero 如何「學習」的,研究者構(gòu)建了一個人類理解國際象棋的函數(shù) c (z0)。其中,z0 為一個象棋特定排布概念,c (z0) 以專業(yè)國際象棋引擎 Stockfish 8 評估分數(shù)作為參考。

再從 AlphaZero 角度,設(shè)一個廣義線性函數(shù) g (zd),作為在不同層取值的探針。訓練設(shè)定下,g (zd) 將不斷趨近??(??0),研究者通過觀察 g (zd) 與??(??0) 近似情況,以確認系統(tǒng)是否理解相關(guān)概念。

接著,研究團隊隨機抽取了 10 萬盤游戲作為訓練集,觀察 AlphaZero 表現(xiàn)。

情況如下圖,結(jié)果顯示,隨著訓練步數(shù)(step)及 ResNet 網(wǎng)絡(luò)塊數(shù)(block)越來越多,AlphaZero 表現(xiàn)出來的分數(shù)越來越高(圖 A),對弈過程中,每一步對敵方威脅性的也隨之增加(圖 C)。

由于實驗中出現(xiàn)了異常值,研究者探討了其背后的潛在語義。

如下圖,少數(shù)紅色點位置遠離主流分布,殘差值也在紅虛線之上,說明人類對棋局判斷 c 函數(shù)與 g 函數(shù)有明顯差異。

研究團隊發(fā)現(xiàn),這些值對應(yīng)棋局中,人類判斷為白方有利,同時,黑方皇后都能在兌子(exchange)過程中被進一步吃掉。

研究者推斷認為,這是源于 AlphaZero 的 Value Head 與參考評價函數(shù)編碼方式與參考系統(tǒng)的不同。

此外,研究者還觀察了人類棋手及國際象棋編程所看重的重要參數(shù),隨訓練過程的變化,其中包括:國王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)、機動性(Mobility)、走棋威脅性(Threats)等。

結(jié)果顯示,它們在初始情況下幾乎為零,但隨著訓練不斷往下進行,以國王安全度(King Safety)、一方棋子總戰(zhàn)力(Material)為代表,部分參數(shù)在模型中的權(quán)重明顯上升。

這讓研究者相信,通過訓練過程,AlphaZero 已經(jīng)逐漸掌握了原本沒有教給它的相關(guān)重要概念或者說知識。

最后,研究者還著重看了看開局演變與下棋風格,發(fā)現(xiàn) AlphaZero 隨時間推移,下棋路徑選擇范圍在縮小,而人類下棋偏好和路徑在變多。

科研人員表示,目前原因尚不清楚,但它反應(yīng)了人與機器神經(jīng)網(wǎng)絡(luò)之間的根本差異。

關(guān)于后續(xù)研究方向,作者提出,下一步希望能探索 AI 模型能否超越人類的認知概念范圍,去掌握學會新的東西。

團隊介紹

本文一作 Thomas McGrath 來自 DeepMind,博士畢業(yè)于倫敦帝國學院,主要研究領(lǐng)域包括 ML、人工智能安全及可解釋性。

二作 Andrei Kapishnikov,來自 Google Brain,主攻人工智能應(yīng)用領(lǐng)域,早前曾在 VMware 及 Oracle 從事技術(shù)工作。

值得一提的是,國際象棋大師 Vladimir Kramnik 也參與了該項目的研究。

參考鏈接:

  • [1]https://twitter.com/weballergy/status/1461281358324588544

  • [2]https://www.pnas.org/doi/10.1073/pnas.2206625119

本文來自微信公眾號:量子位 (ID:QbitAI),作者:詹士

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AlphaZeroAI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知