微軟推出 “從錯(cuò)誤中學(xué)習(xí)” 模型訓(xùn)練法，號(hào)稱可“模仿人類學(xué)習(xí)過(guò)程，改善 AI 推理能力”

2023/11/7 14:02:13 來(lái)源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評(píng)論：

IT之家 11 月 7 日消息，微軟亞洲研究院聯(lián)合北京大學(xué)、西安交通大學(xué)等高校，提出了一項(xiàng)名為“從錯(cuò)誤中學(xué)習(xí)（Learning from Mistake，LeMA）”的 AI 訓(xùn)練方法，號(hào)稱可以通過(guò)模仿人類學(xué)習(xí)知識(shí)的過(guò)程，來(lái)改進(jìn) AI 推理能力。

當(dāng)下 OpenAI GPT-4 和谷歌 aLM-2 等大語(yǔ)言模型在自然語(yǔ)言處理（NLP）任務(wù)，及思維鏈（chain-of-thought，CoT）推理的數(shù)學(xué)難題任務(wù)中都有不錯(cuò)的表現(xiàn)。

但例如 LLaMA-2 及 Baichuan-2 等開(kāi)源大模型，在處理相關(guān)問(wèn)題時(shí)則有待加強(qiáng)。為了提升開(kāi)源這些大語(yǔ)言模型的思維鏈推理能力，研究團(tuán)隊(duì)提出了 LeMA 方法。這種方法主要是模仿人類的學(xué)習(xí)過(guò)程，通過(guò)“從錯(cuò)誤中學(xué)習(xí)”，以改進(jìn)模型的推理能力。

微軟推出 “從錯(cuò)誤中學(xué)習(xí)” 模型訓(xùn)練法，號(hào)稱可“模仿人類學(xué)習(xí)過(guò)程，改善 AI 推理能力”

▲ 圖源相關(guān)論文

IT之家發(fā)現(xiàn)，研究人員的方法是使用一對(duì)包含“錯(cuò)誤解答”與“修正后正確答案”的數(shù)據(jù)來(lái)微調(diào)相關(guān)模型。為取得相關(guān)數(shù)據(jù)，研究人員收集了 5 個(gè)不同大語(yǔ)言模型（包括 LLaMA 及 GPT 系列）的錯(cuò)誤答案和推理過(guò)程，再以 GPT-4 作為“訂正者”，提供修正后的正確答案。

據(jù)悉，修正后的正確答案中包含三類信息，分別是原推理過(guò)程中錯(cuò)誤片段、原推理過(guò)程出錯(cuò)的原因、以及如何修正原方法以獲得正確答案。

研究人員采用 GSM8K 及 MATH，來(lái)測(cè)試 LeMa 訓(xùn)練法對(duì) 5 個(gè)開(kāi)源大模型的效果，結(jié)果顯示，以改進(jìn)過(guò)的 LLaMA-2-70B 為例，在 GSM8K 的準(zhǔn)確率分別為 83.5% 及 81.4%，在 MATH 則分別為 25.0% 及 23.6%。

目前研究人員已將 LeMA 的相關(guān)資料公開(kāi)在 GitHub 上，感興趣的小伙伴們可以點(diǎn)此跳轉(zhuǎn)。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟推出 “從錯(cuò)誤中學(xué)習(xí)” 模型訓(xùn)練法，號(hào)稱可“模仿人類學(xué)習(xí)過(guò)程，改善 AI 推理能力”

相關(guān)文章

微軟推出 “從錯(cuò)誤中學(xué)習(xí)” 模型訓(xùn)練法，號(hào)稱可“模仿人類學(xué)習(xí)過(guò)程，改善 AI 推理能力”