當初 OpenAI 拋出 Sora 大餅,一時間 Open Sora 項目熱火朝天。
現(xiàn)在,這股 Open 的風也是反向吹起來了,最新目標,正是國產(chǎn)大模型 DeepSeek-R1。
Open R1 項目由 HuggingFace 發(fā)起,聯(lián)合創(chuàng)始人兼 CEO Clem Delangue 是這么說的:
我們的科學團隊已經(jīng)開始致力于完全復制和開源 R1,包括訓練數(shù)據(jù)、訓練腳本……
我們希望能充分發(fā)揮開源 AI 的力量,讓全世界每個人都能受益于 AI 的進步!我相信這也有助于揭穿一些神話。
HuggingFace 振臂一呼,立刻歡呼者眾。項目上線僅 1 天,就在 GitHub 上刷下 1.9k 標星。
看來這一波,DeepSeek-R1 真是給全球大模型圈帶來了不小的震撼,并且影響還在持續(xù)。
Open R1
不過話說回來,DeepSeek-R1 本身就是開源的,HuggingFace 搞這么個“Open R1”項目,又是為何?
官方在項目頁中做了解釋:
這個項目的目的是構(gòu)建 R1 pipeline 中缺失的部分,以便所有人都能在此之上復制和構(gòu)建 R1。
HuggingFace 表示,將以 DeepSeek-R1 的技術(shù)報告為指導,分 3 個步驟完成這個項目:
第 1 步:用 DeepSeek-R1 蒸餾高質(zhì)量語料庫,來復制 R1-Distill 模型。
第 2 步:復制 DeepSeek 用來構(gòu)建 R1-Zero 的純強化學習(RL)pipeline。這可能涉及為數(shù)學、推理和代碼整理新的大規(guī)模數(shù)據(jù)集。
第 3 步:通過多階段訓練,從基礎模型過渡到 RL 版本。
結(jié)合 DeepSeek 的官方技術(shù)報告來看,也就是說,Open R1 項目首先要實現(xiàn)的,是用 R1 數(shù)據(jù)蒸餾小模型,看看效果是不是像 DeepSeek 說的那么好:
DeepSeek 開源了 6 個用 R1 蒸餾的小模型,其中蒸餾版 Qwen-1.5 甚至能在部分任務上超過 GPT-4o。
接下來,就是按照 DeepSeek 所說,不用 SFT,純靠 RL 調(diào)教出 R1-Zero,再在 R1-Zero 的基礎上復刻出性能逼近 o1 的 R1 模型。
其中多階段訓練是指,R1 技術(shù)報告提到,DeepSeek-R1 訓練過程中引入了一個多階段訓練流程,具體包括以下 4 個階段:
冷啟動
用數(shù)千個長思維鏈(CoT)樣本對基礎模型進行監(jiān)督微調(diào)(SFT),為模型提供初始的推理能力
面向推理的強化學習
在第一個 SFT 階段的基礎之上,用和訓練 R1-Zero 相同的大規(guī)模強化學習方法,進一步提升模型的推理能力,特別是應對編程、數(shù)學、科學和邏輯推理任務的能力。
拒絕采樣和監(jiān)督微調(diào)
再次使用監(jiān)督微調(diào),提升模型的非推理能力,如事實知識、對話能力等。
針對所有場景的強化學習
這次強化學習的重點是讓模型行為與人類偏好保持一致,提升模型的可用性和安全性。
目前,在 GitHub 倉庫中,已經(jīng)可以看到這幾個文件:
GRPO 實現(xiàn)
訓練和評估代碼
合成數(shù)據(jù)生成器
阿爾特曼坐不住了
有意思的是,R1 刷屏之中,阿爾特曼也坐不住了。
這不,他又帶來了 o3-mini 的最新劇透:
ChatGPT Plus 會員可以每天獲得 100 條 o3-mini 查詢。
Plus 會員馬上就能用上 operator 了,我們正在盡力!
下一個智能體 Plus 會員首發(fā)就能用。
這話一出,??的空氣中充滿了快樂的氣息(doge):
哇!DeepSeek 正在讓 OpenAI 主動大甩賣誒!
參考鏈接:
[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181
本文來自微信公眾號:量子位(ID:QbitAI),作者:魚羊
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。