設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟推出 “從錯(cuò)誤中學(xué)習(xí)” 模型訓(xùn)練法,號(hào)稱可“模仿人類學(xué)習(xí)過(guò)程,改善 AI 推理能力”

2023/11/7 14:02:13 來(lái)源:IT之家 作者:漾仔(實(shí)習(xí)) 責(zé)編:漾仔

IT之家 11 月 7 日消息,微軟亞洲研究院聯(lián)合北京大學(xué)、西安交通大學(xué)等高校,提出了一項(xiàng)名為“從錯(cuò)誤中學(xué)習(xí)(Learning from Mistake,LeMA)”的 AI 訓(xùn)練方法,號(hào)稱可以通過(guò)模仿人類學(xué)習(xí)知識(shí)的過(guò)程,來(lái)改進(jìn) AI 推理能力。

當(dāng)下 OpenAI GPT-4 和谷歌 aLM-2 等大語(yǔ)言模型在自然語(yǔ)言處理(NLP)任務(wù),及思維鏈(chain-of-thought,CoT)推理的數(shù)學(xué)難題任務(wù)中都有不錯(cuò)的表現(xiàn)。

但例如 LLaMA-2 及 Baichuan-2 等開(kāi)源大模型,在處理相關(guān)問(wèn)題時(shí)則有待加強(qiáng)。為了提升開(kāi)源這些大語(yǔ)言模型的思維鏈推理能力,研究團(tuán)隊(duì)提出了 LeMA 方法。這種方法主要是模仿人類的學(xué)習(xí)過(guò)程,通過(guò)“從錯(cuò)誤中學(xué)習(xí)”,以改進(jìn)模型的推理能力

▲ 圖源 相關(guān)論文

IT之家發(fā)現(xiàn),研究人員的方法是使用一對(duì)包含“錯(cuò)誤解答”與“修正后正確答案”的數(shù)據(jù)來(lái)微調(diào)相關(guān)模型。為取得相關(guān)數(shù)據(jù),研究人員收集了 5 個(gè)不同大語(yǔ)言模型(包括 LLaMA 及 GPT 系列)的錯(cuò)誤答案和推理過(guò)程,再以 GPT-4 作為“訂正者”,提供修正后的正確答案。

據(jù)悉,修正后的正確答案中包含三類信息,分別是原推理過(guò)程中錯(cuò)誤片段、原推理過(guò)程出錯(cuò)的原因、以及如何修正原方法以獲得正確答案。

研究人員采用 GSM8K 及 MATH,來(lái)測(cè)試 LeMa 訓(xùn)練法對(duì) 5 個(gè)開(kāi)源大模型的效果,結(jié)果顯示,以改進(jìn)過(guò)的 LLaMA-2-70B 為例,在 GSM8K 的準(zhǔn)確率分別為 83.5% 及 81.4%,在 MATH 則分別為 25.0% 及 23.6%。

目前研究人員已將 LeMA 的相關(guān)資料公開(kāi)在 GitHub 上,感興趣的小伙伴們可以點(diǎn)此跳轉(zhuǎn)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,推理,LeMA

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知