設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

字節(jié)跳動推出 VAPO 框架:突破 AI 推理極限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

2025/4/12 13:46:13 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 4 月 12 日消息,字節(jié)跳動于 4 月 8 日發(fā)布博文,其 Seed 研究團(tuán)隊推出 VAPO 強(qiáng)化學(xué)習(xí)訓(xùn)練框架,目標(biāo)提升大型語言模型在復(fù)雜、冗長任務(wù)中的推理能力。

現(xiàn)有挑戰(zhàn)

在大型語言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練中,價值導(dǎo)向方法(Value-based reinforcement learning methods)因能精確追溯每個動作對后續(xù)回報的影響,展現(xiàn)出巨大潛力。然而,應(yīng)用于長鏈?zhǔn)酵评恚–oT)任務(wù)時,價值模型面臨三大挑戰(zhàn)。

首先,價值模型初始化會引入偏差;其次,傳統(tǒng)方法難以適應(yīng)復(fù)雜任務(wù)中的序列長度差異;最后,驗證任務(wù)中獎勵信號稀疏,優(yōu)化過程面臨探索與利用的權(quán)衡,這些問題限制了價值導(dǎo)向方法的實際效果。

VAPO 簡介

字節(jié)跳動最新推出的 VAPO 框架全稱為 Value Augmented Proximal Policy Optimizationd(增強(qiáng)價值的近端政策優(yōu)化),基于 PPO 框架,通過三項創(chuàng)新技術(shù)應(yīng)對上述挑戰(zhàn)。

首先,VAPO 模型構(gòu)建了細(xì)致的價值訓(xùn)練框架,增強(qiáng)模型對復(fù)雜任務(wù)的理解。其次,引入長度自適應(yīng)廣義優(yōu)勢估計(GAE)機(jī)制,能根據(jù)響應(yīng)長度動態(tài)調(diào)整參數(shù),優(yōu)化長短序列的訓(xùn)練效果。最后,VAPO 整合了多項先前研究技術(shù),形成協(xié)同增效的系統(tǒng)。

在不依賴特定監(jiān)督微調(diào)(SFT)數(shù)據(jù)的情況下,Qwen2.5-32B 模型通過 VAPO 優(yōu)化后,在 AIME24 基準(zhǔn)測試中將得分從 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超過此前 SOTA 方式 DAPO(50 分)10 分,僅用 60% 的更新步驟即達(dá)成業(yè)界領(lǐng)先。

相較于傳統(tǒng) Proximal Policy Optimization(PPO)算法,VAPO 改進(jìn)了數(shù)學(xué)推理能力,訓(xùn)練曲線更為平滑,優(yōu)化過程更穩(wěn)定。

測試顯示,歸因于其價值模型提供的細(xì)粒度信號,VAPO 在長序列任務(wù)中表現(xiàn)出色,得分增長更快。盡管后期訓(xùn)練熵值降低可能限制探索,VAPO 通過平衡設(shè)計確保了穩(wěn)定性和可重復(fù)性。

VAPO 的成功源于其綜合優(yōu)化設(shè)計。消融研究驗證了七項技術(shù)的有效性:價值預(yù)訓(xùn)練防止崩潰,解耦 GAE 支持長回答優(yōu)化,自適應(yīng) GAE 平衡短長回答,剪裁策略鼓勵探索,詞級損失增加長回答權(quán)重,正例語言模型損失提升 6 分,分組采樣貢獻(xiàn) 5 分。

這些改進(jìn)使 VAPO 在探索與利用間找到最佳平衡,顯著優(yōu)于無價值導(dǎo)向的 GRPO 和 DAPO 方法。VAPO 不僅提升了數(shù)學(xué)推理能力,還為 LLM 在復(fù)雜推理任務(wù)中的應(yīng)用提供了新方向。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知