IT之家 2 月 15 日消息,科技媒體 marktechpost 昨日(2 月 14 日)發(fā)布博文,報道稱加州大學伯克利分校的研究團隊提出了一種 AI 訓練方法,僅需少量數據即可增強大語言模型(LLM)推理能力。
提升 LLM 推理能力的難點在于訓練模型生成具有結構化自反思、驗證和回溯的長鏈式思維(CoT)響應。現有模型的訓練過程通常需要在大量數據集上進行昂貴的微調,且許多專有模型的訓練方法并不公開。
研究團隊提出了一種新的訓練方法,僅使用 17000 個 CoT 示例,微調 Qwen2.5-32B-Instruct 模型,并結合了 SFT 和 LoRA 微調技術,強調優(yōu)化推理步驟的結構完整性而非內容本身,通過改進邏輯一致性并最大限度地減少不必要的計算開銷,從而顯著提高了 LLM 的推理效率。
研究表明,在增強 LLM 推理性能方面,CoT 的結構起著至關重要的作用,改變訓練數據的邏輯結構會顯著影響模型的準確性,而修改單個推理步驟的影響則很小。
IT之家附上使用新方法后的測試效果如下:
AIME 2024:準確率達到 56.7%,提升了 40.0 個百分點。
LiveCodeBench:得分 57.0%,提升了 8.1 個百分點。
Math-500:達到 90.8%,提升了 6.0 個百分點。
AMC 2023:達到 85.0%,提升了 17.5 個百分點。
OlympiadBench:達到 60.3%,提升了 12.7 個百分點。
這些結果表明,高效的微調技術可以使 LLM 在更少的數據需求下達到與 OpenAI 的 o1-preview 等專有模型相媲美的推理能力。
這項研究表明,將關注點從大規(guī)模數據依賴轉向結構完整性,可以開發(fā)出一種以最少的計算資源確保強大邏輯一致性的訓練方法。這種方法減少了對海量數據集的依賴,同時保持了強大的推理能力,使 LLM 更易于訪問和擴展。
該研究的成果為未來模型的優(yōu)化鋪平了道路,證明結構化微調策略可以有效地增強 LLM 推理能力,而不會影響效率,這標志著復雜的 AI 推理模型在更廣泛應用方面邁出了重要一步。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。