AI 做數(shù)學(xué)題的成績(jī)又又又被刷新了!
眾所周知,隨著谷歌思維鏈(chain of thought)概念的提出,AI 做題時(shí)已經(jīng)能像人類(lèi)一樣生成解題步驟。
這次,來(lái)自 DeepMind 的科學(xué)家提出了一個(gè)切實(shí)的問(wèn)題:如何確保解題步驟和答案的雙重正確率?
為此,他們?cè)?GSM8K 數(shù)據(jù)集上全面對(duì)比了基于過(guò)程和基于結(jié)果的監(jiān)督方法,并結(jié)合二者優(yōu)勢(shì)訓(xùn)練出一個(gè)最佳模型。
結(jié)果表明,新模型的答案錯(cuò)誤率從 16.8% 降低到 12.7%,解題步驟的錯(cuò)誤率也從 14.0% 降低到了 3.4%。
步驟 + 答案雙重保障
在介紹新研究前,不得不先提到谷歌今年 1 月在論文中提出的思維鏈概念。
簡(jiǎn)單來(lái)說(shuō),思維鏈提示就是一種特殊的上下文學(xué)習(xí),不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例,思維鏈提示還會(huì)額外增加一段推理的過(guò)程。
該方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三個(gè)大型語(yǔ)言模型上都得到了驗(yàn)證:對(duì)比標(biāo)準(zhǔn)提示,新方法在一系列算術(shù)推理等任務(wù)上的準(zhǔn)確率都有了明顯的提高。
但該方法存在的一個(gè)問(wèn)題是,在某些情況下,AI 能生成正確答案,但推理過(guò)程卻是錯(cuò)誤的。
現(xiàn)在,來(lái)自 DeepMind 的研究人員,針對(duì)這一點(diǎn)做出了改進(jìn):不僅只關(guān)注最終結(jié)果,也注重推理過(guò)程的準(zhǔn)確性。
為此,他們對(duì)自然語(yǔ)言處理任務(wù)中基于過(guò)程和結(jié)果的方法進(jìn)行了首次全面比較。
具體來(lái)說(shuō),包括以下不同場(chǎng)景:少樣本提示、有監(jiān)督的微調(diào)、通過(guò)專(zhuān)家迭代的強(qiáng)化學(xué)習(xí)以及重排序和強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型。
而之所以選擇 GSM8K 數(shù)據(jù)集,一來(lái)因?yàn)樗怯尚W(xué)數(shù)學(xué)應(yīng)用題組成,答案都是整數(shù)解,方便準(zhǔn)確性統(tǒng)計(jì);
二是 GSM8K 數(shù)據(jù)集具有對(duì)推理步驟的離線監(jiān)督,以及在線人工標(biāo)注。
從結(jié)果上看,第一,基于過(guò)程和基于結(jié)果的方法在最終答案錯(cuò)誤率上近乎一致。這也意味著,僅靠結(jié)果監(jiān)督就足以實(shí)現(xiàn)較低的答案錯(cuò)誤率。
第二,推理步驟準(zhǔn)確率的提升則需要過(guò)程監(jiān)督或模仿它的獎(jiǎng)勵(lì)模型。盡管最終答案錯(cuò)誤率相似,但從下圖可以看出,結(jié)果監(jiān)督(19.8%)比過(guò)程監(jiān)督(11.4%)的推理錯(cuò)誤率明顯要高。
除此之外,研究人員還結(jié)合二者優(yōu)勢(shì),訓(xùn)練出一個(gè)最佳模型,即將監(jiān)督學(xué)習(xí)與基于獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)相結(jié)合。
新模型的答案錯(cuò)誤率從以前的最佳水平 16.8% 降低到 12.7%,并且,答案正確、推理過(guò)程卻錯(cuò)誤的情況也從 14.0% 降低到了 3.4%。
當(dāng)允許模型對(duì) 30% 的問(wèn)題進(jìn)行回避時(shí),最終答案的錯(cuò)誤率甚至能達(dá)到 2.7%。
研究團(tuán)隊(duì)
本篇論文的研究團(tuán)隊(duì)來(lái)自 DeepMind,共同一作有三位:Jonathan Uesato、Nate Kushman、Ramana Kumar。
論文鏈接:
https://arxiv.org/pdf/2211.14275.pdf
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:羿閣
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。