AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

量子位 2022/12/5 19:03:06 責(zé)編：遠(yuǎn)生

評(píng)論：

AI 做數(shù)學(xué)題的成績(jī)又又又被刷新了！

眾所周知，隨著谷歌思維鏈（chain of thought）概念的提出，AI 做題時(shí)已經(jīng)能像人類(lèi)一樣生成解題步驟。

這次，來(lái)自 DeepMind 的科學(xué)家提出了一個(gè)切實(shí)的問(wèn)題：如何確保解題步驟和答案的雙重正確率？

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

為此，他們?cè)?GSM8K 數(shù)據(jù)集上全面對(duì)比了基于過(guò)程和基于結(jié)果的監(jiān)督方法，并結(jié)合二者優(yōu)勢(shì)訓(xùn)練出一個(gè)最佳模型。

結(jié)果表明，新模型的答案錯(cuò)誤率從 16.8% 降低到 12.7%，解題步驟的錯(cuò)誤率也從 14.0% 降低到了 3.4%。

步驟 + 答案雙重保障

在介紹新研究前，不得不先提到谷歌今年 1 月在論文中提出的思維鏈概念。

簡(jiǎn)單來(lái)說(shuō)，思維鏈提示就是一種特殊的上下文學(xué)習(xí)，不同于標(biāo)準(zhǔn)提示只是給出輸入-輸出對(duì)的示例，思維鏈提示還會(huì)額外增加一段推理的過(guò)程。

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

該方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三個(gè)大型語(yǔ)言模型上都得到了驗(yàn)證：對(duì)比標(biāo)準(zhǔn)提示，新方法在一系列算術(shù)推理等任務(wù)上的準(zhǔn)確率都有了明顯的提高。

但該方法存在的一個(gè)問(wèn)題是，在某些情況下，AI 能生成正確答案，但推理過(guò)程卻是錯(cuò)誤的。

現(xiàn)在，來(lái)自 DeepMind 的研究人員，針對(duì)這一點(diǎn)做出了改進(jìn)：不僅只關(guān)注最終結(jié)果，也注重推理過(guò)程的準(zhǔn)確性。

為此，他們對(duì)自然語(yǔ)言處理任務(wù)中基于過(guò)程和結(jié)果的方法進(jìn)行了首次全面比較。

具體來(lái)說(shuō)，包括以下不同場(chǎng)景：少樣本提示、有監(jiān)督的微調(diào)、通過(guò)專(zhuān)家迭代的強(qiáng)化學(xué)習(xí)以及重排序和強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型。

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

而之所以選擇 GSM8K 數(shù)據(jù)集，一來(lái)因?yàn)樗怯尚W(xué)數(shù)學(xué)應(yīng)用題組成，答案都是整數(shù)解，方便準(zhǔn)確性統(tǒng)計(jì)；

二是 GSM8K 數(shù)據(jù)集具有對(duì)推理步驟的離線監(jiān)督，以及在線人工標(biāo)注。

從結(jié)果上看，第一，基于過(guò)程和基于結(jié)果的方法在最終答案錯(cuò)誤率上近乎一致。這也意味著，僅靠結(jié)果監(jiān)督就足以實(shí)現(xiàn)較低的答案錯(cuò)誤率。

第二，推理步驟準(zhǔn)確率的提升則需要過(guò)程監(jiān)督或模仿它的獎(jiǎng)勵(lì)模型。盡管最終答案錯(cuò)誤率相似，但從下圖可以看出，結(jié)果監(jiān)督（19.8%）比過(guò)程監(jiān)督（11.4%）的推理錯(cuò)誤率明顯要高。

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

除此之外，研究人員還結(jié)合二者優(yōu)勢(shì)，訓(xùn)練出一個(gè)最佳模型，即將監(jiān)督學(xué)習(xí)與基于獎(jiǎng)勵(lì)模型的強(qiáng)化學(xué)習(xí)相結(jié)合。

新模型的答案錯(cuò)誤率從以前的最佳水平 16.8% 降低到 12.7%，并且，答案正確、推理過(guò)程卻錯(cuò)誤的情況也從 14.0% 降低到了 3.4%。

當(dāng)允許模型對(duì) 30% 的問(wèn)題進(jìn)行回避時(shí)，最終答案的錯(cuò)誤率甚至能達(dá)到 2.7%。

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

本篇論文的研究團(tuán)隊(duì)來(lái)自 DeepMind，共同一作有三位：Jonathan Uesato、Nate Kushman、Ramana Kumar。

AI 解數(shù)學(xué)題，答案是對(duì)的過(guò)程卻是錯(cuò)的？DeepMind 新研究改進(jìn)谷歌思維鏈方法

論文鏈接：

https://arxiv.org/pdf/2211.14275.pdf

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：羿閣

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。