批評(píng)不僅能讓人進(jìn)步,也能讓大模型的能力提升。
OpenAI 就用這個(gè)思路造了個(gè)“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前幾天,北大聯(lián)合千問等團(tuán)隊(duì)以類似的思路設(shè)計(jì)出了“數(shù)學(xué)專用版”CriticGPT。
在無需訓(xùn)練的設(shè)置下,驗(yàn)證器能夠在推理時(shí)輔助模型在 GSM8K 上的準(zhǔn)確率從 86.6% 提升到 88.2%。
在 GSM8K 數(shù)據(jù)集上,它可以讓模型的準(zhǔn)確率從 86.6% 提升到 88.2%。
CriticGPT 的核心思路是在代碼中故意設(shè)置 bug 并進(jìn)行詳細(xì)標(biāo)注,然后用得到的數(shù)據(jù)訓(xùn)練出會(huì) debug 的模型。
北大團(tuán)隊(duì)發(fā)現(xiàn),這種方法不僅在代碼當(dāng)中有用,也能幫助語言模型解決數(shù)學(xué)問題。
于是團(tuán)隊(duì)利用相似的思路,把代碼換成數(shù)學(xué)問題,推出了“數(shù)學(xué)版 CriticGPT”——Math-Minos。
用 GPT4 逐步提出修正意見
在數(shù)學(xué)推理領(lǐng)域,驗(yàn)證解決方案的正確性,是確保推理質(zhì)量的關(guān)鍵步驟。
然而,現(xiàn)有的數(shù)學(xué)驗(yàn)證器大多依賴于二元分類標(biāo)簽進(jìn)行訓(xùn)練,這種方式在提供正確或錯(cuò)誤原因的解釋上存在明顯不足,無法給驗(yàn)證器提供足夠充分的監(jiān)督信號(hào)來訓(xùn)練。
Math-Minos 則克服了這一局限,提供了更深入的解釋,極大地豐富了驗(yàn)證器的訓(xùn)練信息。
它引入了逐步的自然語言反饋作為理由標(biāo)簽,不僅指出了解決方案的正誤,還能逐步分析出錯(cuò)誤的原因。
在自然語言反饋的獲取上,研究團(tuán)隊(duì)一開始使用 GPT-4 生成訓(xùn)練數(shù)據(jù),但通過實(shí)驗(yàn)發(fā)現(xiàn),即使是 GPT-4,在逐步評(píng)價(jià)數(shù)學(xué)推理任務(wù)時(shí)也會(huì)出現(xiàn)一定比例的錯(cuò)誤。
為了一定程度避免這個(gè)問題,研究人員通過在提示中引入步驟級(jí)別的二元分類標(biāo)簽,簡化了 GPT-4 的任務(wù),使得 GPT-4 能夠更準(zhǔn)確地生成評(píng)估。
首先,通過監(jiān)督式微調(diào),使用自然語言反饋?zhàn)鳛橛?xùn)練數(shù)據(jù),有效提升了模型的評(píng)估能力。
其次,通過標(biāo)準(zhǔn)的 ORM(Outcome Reward Model,輸出獎(jiǎng)勵(lì)模型)和 PRM(Process Reward Model,過程獎(jiǎng)勵(lì)模型)訓(xùn)練,實(shí)現(xiàn)了高效的推理,這種做法有兩個(gè)好處。
一是通過兩階段訓(xùn)練,可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。
由于監(jiān)督信號(hào)的稀疏性,訓(xùn)練二分類的數(shù)據(jù)往往遠(yuǎn)多于監(jiān)督微調(diào)的數(shù)據(jù),而研究發(fā)現(xiàn),僅需要少量的監(jiān)督微調(diào)數(shù)據(jù),就可以很大程度提升模型的評(píng)估能力。
另一方面,在驗(yàn)證器進(jìn)行驗(yàn)證時(shí),不需要顯示地生成自然語言反饋,讓推理過程更高效。
ORM 任務(wù)表現(xiàn)明顯提升
總得來看,研究人員在訓(xùn)練階段添加了 30K 的自然語言反饋數(shù)據(jù),為 Mistral-7B 驗(yàn)證器帶來了數(shù)學(xué)能力的提升,在 Best-of-256 的實(shí)驗(yàn)設(shè)置下:
在 ORM 的設(shè)置下,MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 86.2% 提升到 87.3%,在 MATH 數(shù)據(jù)集從 35.9% 提升到 37.4%。
在 PRM 的設(shè)置下,MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 87.6%,在 MATH 數(shù)據(jù)集從 36.7% 提升到 37.8%。
在與 Self-Consistency 結(jié)合的設(shè)置下,MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 88.2%,在 MATH 數(shù)據(jù)集從 37.8% 提升到 38.6%。
在 ORM 和 PRM 任務(wù)設(shè)置中,Math-Minos 均展現(xiàn)出了優(yōu)越的性能,特別是在 ORM 設(shè)置中,其改進(jìn)更為顯著。
另外,研究團(tuán)隊(duì)還對(duì)生成器在步驟級(jí)別產(chǎn)生的錯(cuò)誤進(jìn)行了深入分析,將其歸類為五種類型 —— 無關(guān)錯(cuò)誤、累積錯(cuò)誤、計(jì)算錯(cuò)誤、邏輯錯(cuò)誤和其他錯(cuò)誤。
分析結(jié)果表明,在多步驟推理中,步驟錯(cuò)誤的可能原因有很多種,而且模型在這些錯(cuò)誤類型中都有可能出錯(cuò),這進(jìn)一步強(qiáng)調(diào)了引入自然語言反饋來指導(dǎo)模型學(xué)習(xí)的重要性。
實(shí)驗(yàn)發(fā)現(xiàn),在兩個(gè)數(shù)據(jù)集上,累積錯(cuò)誤(即一個(gè)步驟的錯(cuò)誤很可能直接導(dǎo)致所有后續(xù)步驟的錯(cuò)誤)在所有錯(cuò)誤類型中占到的比例最高。
不同數(shù)據(jù)集上的錯(cuò)誤分布也有不同的特點(diǎn),在相對(duì)簡單的 GSM8K 上,計(jì)算錯(cuò)誤更多;在更困難的 MATH 數(shù)據(jù)集上,邏輯錯(cuò)誤更多。
通過構(gòu)建元評(píng)估集,研究團(tuán)隊(duì)評(píng)估了驗(yàn)證器在沒有生成器影響下,準(zhǔn)確判斷最終答案的能力。
結(jié)果顯示,Math-Minos 在訓(xùn)練過程中的元評(píng)估一致優(yōu)于傳統(tǒng)的 ORM,并且展現(xiàn)出更快的收斂速度和更精準(zhǔn)的判斷能力。
同時(shí)實(shí)驗(yàn)結(jié)果也表明,Math-Minos 具有很強(qiáng)的 Scale Up 的潛力。
總之,Math-Minos 的開發(fā)不僅提升了數(shù)學(xué)驗(yàn)證器的性能,更為自然語言處理領(lǐng)域提供了一種新的訓(xùn)練范式。
研究團(tuán)隊(duì)希望這項(xiàng)工作能夠啟發(fā)未來研究,探索自然語言反饋與分類式驗(yàn)證器的潛在整合,推動(dòng)大型語言模型在復(fù)雜推理任務(wù)上的能力。
論文地址:
https://arxiv.org/abs/2406.14024
GitHub:
https://github.com/KbsdJames/MATH-Minos
本文來自微信公眾號(hào):量子位(ID:QbitAI),作者:關(guān)注前沿科技
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。