首頁(yè) > 智能時(shí)代>人工智能

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

量子位 2025/1/19 22:19:33 責(zé)編：汪淼

評(píng)論：

DeepSeek 版 o1，有消息了。

還未正式發(fā)布，已在代碼基準(zhǔn)測(cè)試 LiveCodeBench 霸榜前三，表現(xiàn)與 OpenAI o1 的中檔推理設(shè)置相當(dāng)。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

注意了，這不是在 DeepSeek 官方 App 已經(jīng)能試玩的 DeepSeek-R1-Lite-Preview（輕量預(yù)覽版）。

而是摘掉了輕量版的帽子，稱為 DeepSeek-R1-Preview（預(yù)覽版），意味著替換了規(guī)模更大的基礎(chǔ)模型。

LiveCodeBench 團(tuán)隊(duì)透露，他們正在與 DeepSeek 合作評(píng)估新模型的能力，在合作過程中，DeepSeek 團(tuán)隊(duì)還幫他們找出并解決了評(píng)分系統(tǒng)的一些 bug。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

與此同時(shí)，他們還曬出了目前僅有的一張 DeepSeek-R1-Preview 的思考過程。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

鑒于 DeepSeek 此前已宣布 R1 模型將開源，有網(wǎng)友表示，與 OpenAI o1 編程能力相當(dāng)?shù)拈_源模型即將發(fā)布，2025 年的編程就只剩下按 Tab 鍵了。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

DeepSeek 推理大模型滿血版

兩個(gè)月前，DeepSeek 在官網(wǎng)上線 DeepSeek-R1-Lite-Preview 時(shí)曾透露：

DeepSeek-R1-Lite-Preview 使用強(qiáng)化學(xué)習(xí)訓(xùn)練，推理含大量反思和驗(yàn)證，遵循新的 Scaling Laws—— 推理越長(zhǎng)，表現(xiàn)越強(qiáng)。

在 AIME 測(cè)試基準(zhǔn)中，隨著推理長(zhǎng)度的增加，DeepSeek-R1-Lite-Preview 表現(xiàn)出穩(wěn)定的得分提升。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

DeepSeek-R1-Lite 推理的特點(diǎn)在網(wǎng)友們的后續(xù)測(cè)試中也得到了驗(yàn)證：

在某些情況下，模型似乎能夠在生成推理步驟時(shí)自我糾正，表現(xiàn)出類似原生“自我反思”的能力。不過，沒有訓(xùn)練數(shù)據(jù)、模型架構(gòu)和技術(shù)報(bào)告 / 論文的細(xì)節(jié)，很難確認(rèn)這一點(diǎn)。
期待未來(lái)的開源模型和 API！

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

摘掉 Lite 的帽子，變成 DeepSeek-R1-Preview，意味著換了更大的基礎(chǔ)模型。

之前 Lite 版就在難度較高數(shù)學(xué)和代碼任務(wù)上超越 o1-preview，大幅領(lǐng)先 GPT-4o。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

這次在 LiveCodeBench 上，這次的 DeepSeek-R1-Preview 的表現(xiàn)又與 OpenAI o1-Medium 相當(dāng)，網(wǎng)友們更加期待開源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈爾大學(xué)團(tuán)隊(duì)推出，旨在對(duì)大模型的代碼能力進(jìn)行全面且無(wú)污染的評(píng)估。

具體避免測(cè)試數(shù)據(jù)泄露的方法，是隨著時(shí)間的推移不斷從人類的編程競(jìng)賽平臺(tái)收集新的題目。

除了代碼生成，還會(huì)評(píng)估模型在代碼自修復(fù)、執(zhí)行和測(cè)試輸出預(yù)測(cè)等方面的能力。這樣實(shí)時(shí)更新、確保公平性和可靠性的測(cè)試方法，獲得了開發(fā)者社區(qū)的認(rèn)可。

還有程序猿喊話 Cursor 直接把 R1-Preview 集成到 Agent mode 里：

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

One More Thing

趕在春節(jié)前，許多還在做訓(xùn)練的國(guó)產(chǎn)大模型團(tuán)隊(duì)，都把自家模型更新了一遍。OpenAI 似乎要趁這邊放假開始搞事情了（狗頭），阿爾特曼發(fā)帖透露：

o3-mini 完成外部合作測(cè)試，已確定最終版，將在幾周內(nèi)推出，會(huì)同時(shí)上線 API 和 ChatGPT。

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

在后續(xù)對(duì)話中，阿爾特曼還確認(rèn)了未來(lái)模型更多基本情況：

o3-mini 的速度會(huì)非?？?/p>
o3-mini 大多數(shù)情況下不如 o1-pro
o3 pro 收費(fèi)從 $200 / 月起步
OpenAI 正在關(guān)注如何讓 AI 一次性輸出更多內(nèi)容
2025 年計(jì)劃把 GPT 系列和 o 系列合并

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：夢(mèng)晨、西風(fēng)，原標(biāo)題《DeepSeek 新模型霸榜，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源，網(wǎng)友：今年編程只剩 Tab 鍵》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源

DeepSeek 推理大模型滿血版

One More Thing

相關(guān)文章

DeepSeek R1 Preview 模型亮相，代碼能力與 OpenAI o1 相當(dāng)且確認(rèn)開源