AI 解數(shù)學(xué)題,答案是對(duì)的過(guò)程卻是錯(cuò)的?DeepMind 新研究改進(jìn)谷歌思維鏈方法

量子位 2022/12/5 19:03:06 責(zé)編:遠(yuǎn)生

AI 做數(shù)學(xué)題的成績(jī)又又又被刷新了!

眾所周知,隨著谷歌思維鏈(chain of thought)概念的提出,AI 做題時(shí)已經(jīng)能像人類(lèi)一樣生成解題步驟。

這次,來(lái)自 DeepMind 的科學(xué)家提出了一個(gè)切實(shí)的問(wèn)題:如何確保解題步驟和答案的雙重正確率?

為此,他們?cè)?GSM8K 數(shù)據(jù)集上全面對(duì)比了基于過(guò)程和基于結(jié)果的監(jiān)督方法,并結(jié)合二者優(yōu)勢(shì)訓(xùn)練出一個(gè)最佳模型

結(jié)果表明,新模型的答案錯(cuò)誤率從 16.8% 降低到 12.7%,解題步驟的錯(cuò)誤率也從 14.0% 降低到了 3.4%。

步驟 + 答案雙重保障

在介紹新研究前,不得不先提到谷歌今年 1 月在論文中提出的思維鏈概念。

簡(jiǎn)單來(lái)說(shuō),思維鏈提示就是一種特殊的上下文學(xué)習(xí),不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例,思維鏈提示還會(huì)額外增加一段推理的過(guò)程。

該方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三個(gè)大型語(yǔ)言模型上都得到了驗(yàn)證:對(duì)比標(biāo)準(zhǔn)提示,新方法在一系列算術(shù)推理等任務(wù)上的準(zhǔn)確率都有了明顯的提高。

但該方法存在的一個(gè)問(wèn)題是,在某些情況下,AI 能生成正確答案,但推理過(guò)程卻是錯(cuò)誤的。

現(xiàn)在,來(lái)自 DeepMind 的研究人員,針對(duì)這一點(diǎn)做出了改進(jìn):不僅只關(guān)注最終結(jié)果,也注重推理過(guò)程的準(zhǔn)確性。

為此,他們對(duì)自然語(yǔ)言處理任務(wù)中基于過(guò)程和結(jié)果的方法進(jìn)行了首次全面比較

具體來(lái)說(shuō),包括以下不同場(chǎng)景:少樣本提示、有監(jiān)督的微調(diào)、通過(guò)專(zhuān)家迭代的強(qiáng)化學(xué)習(xí)以及重排序和強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型。

而之所以選擇 GSM8K 數(shù)據(jù)集,一來(lái)因?yàn)樗怯尚W(xué)數(shù)學(xué)應(yīng)用題組成,答案都是整數(shù)解,方便準(zhǔn)確性統(tǒng)計(jì);

二是 GSM8K 數(shù)據(jù)集具有對(duì)推理步驟的離線監(jiān)督,以及在線人工標(biāo)注。

從結(jié)果上看,第一,基于過(guò)程和基于結(jié)果的方法在最終答案錯(cuò)誤率上近乎一致。這也意味著,僅靠結(jié)果監(jiān)督就足以實(shí)現(xiàn)較低的答案錯(cuò)誤率。

第二,推理步驟準(zhǔn)確率的提升則需要過(guò)程監(jiān)督或模仿它的獎(jiǎng)勵(lì)模型。盡管最終答案錯(cuò)誤率相似,但從下圖可以看出,結(jié)果監(jiān)督(19.8%)比過(guò)程監(jiān)督(11.4%)的推理錯(cuò)誤率明顯要高。

除此之外,研究人員還結(jié)合二者優(yōu)勢(shì),訓(xùn)練出一個(gè)最佳模型,即將監(jiān)督學(xué)習(xí)與基于獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)相結(jié)合。

新模型的答案錯(cuò)誤率從以前的最佳水平 16.8% 降低到 12.7%,并且,答案正確、推理過(guò)程卻錯(cuò)誤的情況也從 14.0% 降低到了 3.4%。

當(dāng)允許模型對(duì) 30% 的問(wèn)題進(jìn)行回避時(shí),最終答案的錯(cuò)誤率甚至能達(dá)到 2.7%。

研究團(tuán)隊(duì)

本篇論文的研究團(tuán)隊(duì)來(lái)自 DeepMind,共同一作有三位:Jonathan Uesato、Nate Kushman、Ramana Kumar。

論文鏈接:

https://arxiv.org/pdf/2211.14275.pdf

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:羿閣

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,DeepMind

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知