首頁

設置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應用

App客戶端
要知App
軟媒魔方

首頁 > 智能時代>人工智能

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

量子位 2025/1/26 15:09:11 責編：清源

評論：

當初 OpenAI 拋出 Sora 大餅，一時間 Open Sora 項目熱火朝天。

現(xiàn)在，這股 Open 的風也是反向吹起來了，最新目標，正是國產(chǎn)大模型 DeepSeek-R1。

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

Open R1 項目由 HuggingFace 發(fā)起，聯(lián)合創(chuàng)始人兼 CEO Clem Delangue 是這么說的：

我們的科學團隊已經(jīng)開始致力于完全復制和開源 R1，包括訓練數(shù)據(jù)、訓練腳本……
我們希望能充分發(fā)揮開源 AI 的力量，讓全世界每個人都能受益于 AI 的進步！我相信這也有助于揭穿一些神話。

HuggingFace 振臂一呼，立刻歡呼者眾。項目上線僅 1 天，就在 GitHub 上刷下 1.9k 標星。

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

看來這一波，DeepSeek-R1 真是給全球大模型圈帶來了不小的震撼，并且影響還在持續(xù)。

Open R1

不過話說回來，DeepSeek-R1 本身就是開源的，HuggingFace 搞這么個“Open R1”項目，又是為何？

官方在項目頁中做了解釋：

這個項目的目的是構(gòu)建 R1 pipeline 中缺失的部分，以便所有人都能在此之上復制和構(gòu)建 R1。

HuggingFace 表示，將以 DeepSeek-R1 的技術(shù)報告為指導，分 3 個步驟完成這個項目：

第 1 步：用 DeepSeek-R1 蒸餾高質(zhì)量語料庫，來復制 R1-Distill 模型。
第 2 步：復制 DeepSeek 用來構(gòu)建 R1-Zero 的純強化學習（RL）pipeline。這可能涉及為數(shù)學、推理和代碼整理新的大規(guī)模數(shù)據(jù)集。
第 3 步：通過多階段訓練，從基礎模型過渡到 RL 版本。

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

結(jié)合 DeepSeek 的官方技術(shù)報告來看，也就是說，Open R1 項目首先要實現(xiàn)的，是用 R1 數(shù)據(jù)蒸餾小模型，看看效果是不是像 DeepSeek 說的那么好：

DeepSeek 開源了 6 個用 R1 蒸餾的小模型，其中蒸餾版 Qwen-1.5 甚至能在部分任務上超過 GPT-4o。

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

接下來，就是按照 DeepSeek 所說，不用 SFT，純靠 RL 調(diào)教出 R1-Zero，再在 R1-Zero 的基礎上復刻出性能逼近 o1 的 R1 模型。

其中多階段訓練是指，R1 技術(shù)報告提到，DeepSeek-R1 訓練過程中引入了一個多階段訓練流程，具體包括以下 4 個階段：

冷啟動

用數(shù)千個長思維鏈（CoT）樣本對基礎模型進行監(jiān)督微調(diào)（SFT），為模型提供初始的推理能力

面向推理的強化學習

在第一個 SFT 階段的基礎之上，用和訓練 R1-Zero 相同的大規(guī)模強化學習方法，進一步提升模型的推理能力，特別是應對編程、數(shù)學、科學和邏輯推理任務的能力。

拒絕采樣和監(jiān)督微調(diào)

再次使用監(jiān)督微調(diào)，提升模型的非推理能力，如事實知識、對話能力等。

針對所有場景的強化學習

這次強化學習的重點是讓模型行為與人類偏好保持一致，提升模型的可用性和安全性。

目前，在 GitHub 倉庫中，已經(jīng)可以看到這幾個文件：

GRPO 實現(xiàn)
訓練和評估代碼
合成數(shù)據(jù)生成器

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

阿爾特曼坐不住了

有意思的是，R1 刷屏之中，阿爾特曼也坐不住了。

這不，他又帶來了 o3-mini 的最新劇透：

ChatGPT Plus 會員可以每天獲得 100 條 o3-mini 查詢。
Plus 會員馬上就能用上 operator 了，我們正在盡力！
下一個智能體 Plus 會員首發(fā)就能用。

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

這話一出，??的空氣中充滿了快樂的氣息（doge）：

哇！DeepSeek 正在讓 OpenAI 主動大甩賣誒！

DeepSeek-R1 持續(xù)刷屏，連 Open R1 都來了！抱抱臉發(fā)起，1 天狂攬 1.9k 星

參考鏈接：

[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181

本文來自微信公眾號：量子位（ID：QbitAI），作者：魚羊

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關文章

關鍵詞：deepseek，OpenAI R1

Deepseek 新模型意外曝光！編程跑分一舉超越 Claude 3.5 Sonnet

軟媒旗下網(wǎng)站： IT之家最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機APP應用魔方最會買要知

<delect id="iowoi"></delect>