1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

量子位 2025/2/22 17:48:21 責(zé)編：清源

評(píng)論：

DeepSeek 啥都開源了，就是沒(méi)有開源訓(xùn)練代碼和數(shù)據(jù)。

現(xiàn)在，開源 RL 訓(xùn)練方法只需要用 1/30 的訓(xùn)練步驟就能趕上相同尺寸的 DeepSeek-R1-Zero 蒸餾 Qwen。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

國(guó)內(nèi)大模型六小強(qiáng)之一的階躍星辰與清華聯(lián)合發(fā)布 Open Reasoner Zero（ORZ），由 AI 大拿沈向洋、階躍星辰創(chuàng)始人 / CEO 姜大昕、ResNet 作者張祥雨等一眾大佬親自署名。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

在響應(yīng)長(zhǎng)度上，用約 17% 的訓(xùn)練步驟就能趕上 DeepSeek-R1-Zero 671B。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

值得關(guān)注的是，團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)重要的轉(zhuǎn)折點(diǎn) ——

在訓(xùn)練步驟約 680 步時(shí)，模型的訓(xùn)練獎(jiǎng)勵(lì)值、反思能力和回答長(zhǎng)度同時(shí)出現(xiàn)顯著提升，疑似出現(xiàn)了 DeepSeek-R1-Zero 論文中類似的“頓悟時(shí)刻”（aha moment）。

目前，研究訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文、模型全都 100％開源，開源許可證用的也是寬松的 MIT Lisence。

開源 48 小時(shí)，就已速攬 700 + 星星。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

以下是更多細(xì)節(jié)。

復(fù)雜的獎(jiǎng)勵(lì)函數(shù)不必要？！

通過(guò)廣泛的實(shí)驗(yàn)，團(tuán)隊(duì)證明了一種極簡(jiǎn)主義的方法，帶有 GAE 的原版 PPO 就可以有效地?cái)U(kuò)展 RL 訓(xùn)練（關(guān)鍵的參數(shù)設(shè)置是 GAE λ= 1，折扣因子 γ=1）。

再加上基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)，足以在推理任務(wù)上同時(shí)擴(kuò)大響應(yīng)長(zhǎng)度和基準(zhǔn)性能，類似于 DeepSeek-R1-Zero 中觀察到的現(xiàn)象。

這一結(jié)果表明復(fù)雜的獎(jiǎng)勵(lì)函數(shù)是不必要的。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

另外，團(tuán)隊(duì)在不依賴任何基于 KL 的正則化技術(shù)的情況下實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練，這與 RLHF 和推理模型領(lǐng)域目前的認(rèn)知不同，這也為進(jìn)一步擴(kuò)大強(qiáng)化學(xué)習(xí)規(guī)模提供了希望。

同時(shí)擴(kuò)大數(shù)據(jù)數(shù)量和多樣性對(duì)于 Open Reasoner Zero 的訓(xùn)練至關(guān)重要。雖然在像 MATH 這樣有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會(huì)導(dǎo)致性能快速達(dá)到平臺(tái)期，但精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展，在訓(xùn)練集和測(cè)試集上都沒(méi)有飽和的跡象。

在以 Qwen2.5-Base-7B 為基礎(chǔ)模型的實(shí)驗(yàn)中，所有基準(zhǔn)測(cè)試在某個(gè)時(shí)間點(diǎn)都會(huì)經(jīng)歷獎(jiǎng)勵(lì)和響應(yīng)長(zhǎng)度的突然增加，這種現(xiàn)象類似于涌現(xiàn)行為。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法

在整個(gè)訓(xùn)練過(guò)程中，Average Correct Reflection Length 始終高于 Average Response Length。一個(gè)特別值得注意的現(xiàn)象出現(xiàn)在第 680 步附近，可以觀察到三個(gè)指標(biāo)同時(shí)加速。

1/30 訓(xùn)練步驟復(fù)刻 DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型 RL 訓(xùn)練方法