DeepSeek R1 橫空出世撼動(dòng)了整個(gè)硅谷,這波 AI 恐懼仍在蔓延擴(kuò)散。阿爾特曼、OpenAI 首席研究官不得不發(fā)文承認(rèn) DeepSeek 的技術(shù)突破,預(yù)告未來會(huì)加快新模型的發(fā)布。與此同時(shí),研究人員們也紛紛展開了對 DeepSeek 技術(shù)的深入分析。
DeepSeek 掀起的滔天巨浪,讓全世界為之震顫。短短幾天,從 R1 復(fù)現(xiàn)狂潮,到登頂美榜 App Store,再到科技股集體重挫,這股東方神秘力量威力盡顯。
R1 在 Hugging Face 中的 like,從今年 1 月起直線飆升。
就連阿爾特曼本人也不得不打破沉默,公開承認(rèn) DeepSeek 的實(shí)力,并劇透了未來會(huì)有更多模型的發(fā)布:
DeepSeek R1 是一款令人印象深刻的模型,特別是考慮到他們在這個(gè)價(jià)格范圍內(nèi)能夠提供的能力。
我們顯然會(huì)推出更好的模型,而且有一個(gè)新的競爭對手確實(shí)令人振奮!我們會(huì)加快一些版本的發(fā)布,但主要還是專注于推進(jìn) OpenAI 研究路線圖。我們堅(jiān)信,現(xiàn)在比以往任何時(shí)候都更需要更多的算力來實(shí)現(xiàn)我們的使命。
未來,世界將會(huì)需要大量的 AI,并對下一代模型感到驚嘆。期待為大家?guī)?AGI 和更超前的技術(shù)。
與此同時(shí),OpenAI 首席研究官 Mark Chen 也承認(rèn)道,DeepSeek 的確獨(dú)立發(fā)現(xiàn)了一些 o1 的核心 idea。
但對于外界的各種分析,他顯然是不認(rèn)可的。
Mark Chen 表示,現(xiàn)代 AI 系統(tǒng)采用了「預(yù)訓(xùn)練」和「推理」兩大范式,提供了更靈活的優(yōu)化空間。
在降低成本的同時(shí),提升模型性能,未來 OpenAI 可以在這兩個(gè)維度上持續(xù)發(fā)力。
而且,隨著蒸餾技術(shù)日趨成熟,他們還發(fā)現(xiàn)成本控制和性能提升已經(jīng)不再互相依賴。
換言之,OpenAI 能以更低成本提供服務(wù),也不代表就要犧牲模型的能力。
OpenAI 研究科學(xué)家、德?lián)渲?Noam Brown 同樣站出來表示,「算法突破和 Scaling 是互補(bǔ)的,而不是相互競爭的。前者使性能與計(jì)算量的曲線發(fā)生彎曲,而后者則是在曲線上進(jìn)一步前進(jìn)」。
作為「對沖」,OpenAI 今天特意冒泡,發(fā)布了一個(gè)專為美國政府打造的 ChatGPT Gov。
中國 AI 撼動(dòng)硅谷帝國
這場始于一篇 22 頁學(xué)術(shù)論文的風(fēng)暴,讓一個(gè)約 200 人的團(tuán)隊(duì),用一個(gè)模型摧毀華爾街,改變了整個(gè)硅谷對 AI 的看法。
恐怕連 DeepSeek 自己也沒有想到,這將成為改寫 AI 競爭格局的一記重拳。
DeepSeek R1 論文發(fā)布之初,并未引起所有人的警覺。隨著研究者逐漸消化論文內(nèi)容,一個(gè)令人震驚的事實(shí)浮出水面:
R1 竟以遠(yuǎn)低于科技巨頭的成本,達(dá)到了可與頂級(jí) AI 模型較量的水平。
更令人瞠目的是,這一突破并非依賴昂貴的算力堆砌,而是通過精妙的工程設(shè)計(jì)實(shí)現(xiàn)的。
當(dāng)許多專家認(rèn)為中國 AI 在競賽中望塵莫及之時(shí),R1 的出現(xiàn)無異于平地驚雷。
紐約時(shí)報(bào)作者 Kevin Roose 就此發(fā)表了自己觀點(diǎn) ——R1 似乎正在動(dòng)搖美國科技產(chǎn)業(yè)的三個(gè)主要的假設(shè)。
平民算力,也能顛覆游戲規(guī)則
首先,第一個(gè)假設(shè)是,要構(gòu)建頂尖 AI 模型,需要在強(qiáng)大的芯片和數(shù)據(jù)中心上投入巨額資金。
不得不說,這一點(diǎn)早已成為世界公認(rèn)的模型 Scaling Law 必備要素。
從微軟、Meta、谷歌,到 xAI 等硅谷巨頭們已經(jīng)斥資數(shù)百億美金,專為開發(fā)和運(yùn)行下一代 AI 打造專用的基礎(chǔ)設(shè)施。
在他們看來,這些投入遠(yuǎn)遠(yuǎn)不夠。
上周,美國官宣了「星際之門」項(xiàng)目,計(jì)劃 4 年內(nèi)砸 5000 億美金,在全美建造 20 座超算。
要知道,DeepSeek 似乎只花費(fèi)了這個(gè)數(shù)額的一小部分就打造了 R1。
雖 R1 具體訓(xùn)練金額未知,業(yè)界從 V3 550 萬美元推測,預(yù)計(jì)其成本要高于這一金額。
即便是 R1 訓(xùn)練成本是 DeepSeek 聲稱的 10 倍,考慮到其他成本,如工程師薪資或基礎(chǔ)研究成本,這個(gè)數(shù)字仍然比美國人工智能公司開發(fā)其最強(qiáng)大模型的支出要低幾個(gè)數(shù)量級(jí)。
「大」即是好,也不存在了!
其次,DeepSeek 在成本上的突破,打破了近年來 AI 競賽中「越大越好」的觀點(diǎn)。
R1 恰恰用實(shí)踐證明了,經(jīng)過精細(xì)的訓(xùn)練,相對較小的模型也可以媲美,甚至超越更大的模型。
反過來,這意味著,AI 公司或許能以遠(yuǎn)低于此前預(yù)期的投資,就能實(shí)現(xiàn)非常強(qiáng)大的功能。
在研究論文中,揭示了一些關(guān)于 R1 實(shí)際構(gòu)建方式的細(xì)節(jié),包括「模型蒸餾」方面的一些前沿技術(shù)。
從這點(diǎn)可以看出,將大型 AI 模型壓縮成更小的模型,不僅運(yùn)行成本更低,同時(shí)不會(huì)損失太多性能。
此外,論文還有一些細(xì)節(jié)表明,將「普通」的 AI 語言模型轉(zhuǎn)換為更復(fù)雜的推理模型,只需要在其基礎(chǔ)上應(yīng)用 RL 算法,即可實(shí)現(xiàn)。
中國 AI 落后迷思,正被打破
第三,DeepSeek 逆襲成功,也動(dòng)搖了許多專家對中國在 AI 競賽中處于落后地位的觀點(diǎn)。
事實(shí)證明,美國的技術(shù)優(yōu)勢,可能并不如想象中的牢固。
多年來,許多 AI 專家一直認(rèn)為美國至少領(lǐng)先世界幾年,而且中國公司要快速復(fù)制美國的進(jìn)展是極其困難的。
但 DeepSeek 的結(jié)果表明,中國擁有可以匹配或超越 OpenAI,以及其他美國人工智能公司模型的先進(jìn)人工智能能力。
這場 AI 巨震帶來的不僅是技術(shù)突破,更是對全球 AI 格局的深刻洗牌。
該緊張的,是 OpenAI 們
當(dāng)整個(gè)市場還在為 AI 訓(xùn)練成本驟降而恐慌時(shí),一些業(yè)內(nèi)資深玩家卻看到了不一樣的未來。
硅谷眾多業(yè)內(nèi)人士認(rèn)為,市場對 DeepSeek 最新模型的大規(guī)模拋售反應(yīng)過度。
他們認(rèn)為,該模型通過顯著降低 AI 成本,將推動(dòng) AI 的更廣泛應(yīng)用和價(jià)值實(shí)現(xiàn),從而持續(xù)維持市場對英偉達(dá)芯片的需求。
近期,前英特爾首席執(zhí)行官 Pat Gelsinger 用實(shí)際行動(dòng)給出了答案,在周一買入了英偉達(dá)的股票。
他在 LinkedIn 上發(fā)文表示,「市場的反應(yīng)是錯(cuò)誤的,降低 AI 成本將帶來市場規(guī)模的擴(kuò)張。DeepSeek 是一項(xiàng)卓越的工程成就,將引領(lǐng) AI 邁向更廣泛的商業(yè)應(yīng)用」。
英偉達(dá)也在周一表示,DeepSeek 的創(chuàng)新將促進(jìn)其業(yè)務(wù)的發(fā)展。
DeepSeek 是一項(xiàng)杰出的 AI 技術(shù)進(jìn)展,也是「測試時(shí) Scaling」的完美范例。這種推理運(yùn)算需要大量英偉達(dá) GPU 和高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的支持。
業(yè)內(nèi)專家 TechInsights 的 G Dan Hutcheson 分析更是令人深思。
在他看來,DeepSeek 技術(shù)突破對英偉達(dá)的影響有限,真正應(yīng)該擔(dān)心的是 OpenAI 這樣提供類似服務(wù)的公司。
而網(wǎng)友們在 Mark Chen 推文下面分享的真實(shí)體驗(yàn),正是這一分析的驗(yàn)證。
圖解 DeepSeek-R1
對于機(jī)器學(xué)習(xí)研發(fā)社區(qū)而言,DeepSeek-R1 是尤為重要的一個(gè)里程碑:
它是一個(gè)開放權(quán)重模型,并提供了多個(gè)經(jīng)過知識(shí)蒸餾的輕量級(jí)版本
它不僅分享了訓(xùn)練方法,還深入探討了如何復(fù)制類似 OpenAI o1 這樣的推理模型的實(shí)現(xiàn)過程
在最近的一篇博客中,就職于 AI 初創(chuàng) Chere 的機(jī)器學(xué)習(xí)研究工程師 Jay Alammar,便通過圖解 DeepSeek-R1 的方式,分析了如何打造具有推理能力的大語言模型。
模型訓(xùn)練第一步的細(xì)節(jié)來自之前的 DeepSeek-V3 論文。
R1 使用該論文中的基礎(chǔ)模型,并仍然經(jīng)過監(jiān)督微調(diào)(SFT)和偏好微調(diào)步驟,但其執(zhí)行方式有所不同。
1. 長鏈推理的監(jiān)督微調(diào)數(shù)據(jù)
這一過程包含了 60 萬個(gè)長思維鏈推理示例。
然而,想要獲取如此規(guī)模,并且還是人工標(biāo)注的這類數(shù)據(jù),既困難又昂貴。這就是為什么創(chuàng)建這些數(shù)據(jù)的過程成為第二個(gè)重要特點(diǎn)。
2. 一個(gè)臨時(shí)的高質(zhì)量推理大語言模型(但在非推理任務(wù)上表現(xiàn)較差)
這些數(shù)據(jù)是由 R1 的前身 —— 一個(gè)專注于推理的相關(guān)模型創(chuàng)建的。
其靈感來自于另一款被稱為 R1-Zero 的模型。它的重要性不在于它是一個(gè)出色的通用大語言模型,而在于它僅需少量標(biāo)注數(shù)據(jù),通過大規(guī)模 RL 就能在解決推理問題方面表現(xiàn)優(yōu)異。
這個(gè)專業(yè)推理模型的輸出隨后被用于訓(xùn)練一個(gè)更全面的模型,使其能夠勝任其他非推理任務(wù),達(dá)到用戶對大語言模型的預(yù)期水平。
3. 使用大規(guī)模強(qiáng)化學(xué)習(xí)創(chuàng)建推理模型
3.1 大規(guī)模面向推理的強(qiáng)化學(xué)習(xí)(R1-Zero)
在這里,RL 被用于創(chuàng)建臨時(shí)推理模型,該模型隨后用于生成監(jiān)督微調(diào)的推理示例。
而使這一切成為可能的關(guān)鍵在于,此前創(chuàng)建的 DeepSeek-R1-Zero 模型的實(shí)驗(yàn)。
R1-Zero 的獨(dú)特之處在于,它無需標(biāo)注的監(jiān)督微調(diào)訓(xùn)練集就能在推理任務(wù)上表現(xiàn)優(yōu)異,甚至可以與 o1 相媲美。
它的訓(xùn)練直接從預(yù)訓(xùn)練基礎(chǔ)模型通過 RL 過程進(jìn)行(無需監(jiān)督微調(diào)步驟)。
一直以來,數(shù)據(jù)始終是決定機(jī)器學(xué)習(xí)模型能力的關(guān)鍵要素。那么這個(gè)模型是如何打破這一定律的?這涉及兩個(gè)關(guān)鍵因素:
(1)現(xiàn)代基礎(chǔ)模型已經(jīng)達(dá)到了質(zhì)量和能力的新高度(該基礎(chǔ)模型在 14.8 萬億高質(zhì)量 token 上進(jìn)行訓(xùn)練)。
(2)與普通的聊天或?qū)懽魅蝿?wù)相比,推理問題可以通過自動(dòng)化方式進(jìn)行驗(yàn)證和標(biāo)注。
讓我們通過一個(gè)例子來說明。以下是 RL 訓(xùn)練步驟中的一個(gè)典型提示詞:
編寫 Python 代碼,接受一個(gè)數(shù)字列表,返回排序后的列表,并在開頭添加數(shù)字 42。
當(dāng)正在訓(xùn)練中的模型收到這個(gè)問題并生成答案后,有很多種方式都可以實(shí)現(xiàn)自動(dòng)驗(yàn)證:
用代碼檢查工具驗(yàn)證生成內(nèi)容是否為合法的 Python 代碼
直接運(yùn)行 Python 代碼檢驗(yàn)其執(zhí)行情況
用其他現(xiàn)代編程大語言模型生成單元測試來驗(yàn)證代碼行為(它們本身無需具備推理能力)
進(jìn)一步測量代碼執(zhí)行時(shí)間,引導(dǎo)訓(xùn)練過程優(yōu)先選擇性能更優(yōu)的解決方案,而不僅僅是能夠解決問題的正確程序
通過這種方式,我們可以在訓(xùn)練過程中向模型提供類似問題,并獲得多種可能的解決方案。
通過自動(dòng)檢查(無需人為干預(yù)),我們可以發(fā)現(xiàn):
第一個(gè)完成結(jié)果甚至不是代碼;
第二個(gè)確實(shí)是 Python 代碼,但并未解決問題;
第三個(gè)是一個(gè)可能的解決方案,但未能通過單元測試;
第四個(gè)才是正確的解決方案。
這些信號(hào)都可以直接用來改進(jìn)模型。當(dāng)然,這種改進(jìn)是通過大量示例(在 mini-batch 中)和連續(xù)的訓(xùn)練步驟來完成的。
這些獎(jiǎng)勵(lì)信號(hào)和模型更新正是模型在 RL 訓(xùn)練過程中持續(xù)改進(jìn)任務(wù)表現(xiàn)的方式,正如論文圖 2 所示。
與這種能力的提升相對應(yīng)的是,生成響應(yīng)的長度變化 —— 模型會(huì)生成更多的思考 token 來處理問題。
這個(gè)過程確實(shí)很有用,但 R1-Zero 卻面臨著其他影響其實(shí)用性的問題。
雖然 DeepSeek-R1-Zero 展現(xiàn)出強(qiáng)大的推理能力,并能自主形成令人驚喜的高效推理模式,但它仍然面臨著一些挑戰(zhàn)。比如,DeepSeek-R1-Zero 在可讀性和語言混合等方面存在明顯的不足。
R1 的目標(biāo)是成為一個(gè)更實(shí)用的模型。因此,它并非完全依賴 RL 過程,而是在我們前文提到的兩個(gè)方面加以運(yùn)用:
(1)創(chuàng)建中間推理模型以生成 SFT 數(shù)據(jù)點(diǎn)
(2)訓(xùn)練 R1 模型以提升推理和非推理問題的處理能力(使用其他類型的驗(yàn)證器)
3.2 使用中間推理模型創(chuàng)建 SFT 推理數(shù)據(jù)
為了提升中間推理模型的實(shí)用性,需要對其進(jìn)行監(jiān)督式微調(diào)(SFT)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含數(shù)千個(gè)推理問題示例(部分來自 R1-Zero 的生成和篩選)。論文將這些稱為「冷啟動(dòng)數(shù)據(jù)」。
與 DeepSeek-R1-Zero 不同,DeepSeek-R1 為了避免基礎(chǔ)模型在 RL 訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動(dòng)現(xiàn)象,我們構(gòu)建并收集了少量思維鏈(CoT)數(shù)據(jù)來微調(diào)模型,將其作為初始 RL 代理。在數(shù)據(jù)收集過程中,我們探索了多種方法:采用長思維鏈作為示例進(jìn)行少樣本提示學(xué)習(xí),直接通過提示詞引導(dǎo)模型生成包含反思和驗(yàn)證的詳細(xì)答案,以可讀格式采集 DeepSeek-R1-Zero 的輸出,并通過人工標(biāo)注進(jìn)行后期優(yōu)化。
然而,既然我們已經(jīng)擁有這些數(shù)據(jù),為什么還需要依賴 RL 過程呢?
這主要是數(shù)據(jù)規(guī)模的限制。現(xiàn)有數(shù)據(jù)集可能只有 5,000 個(gè)示例,但訓(xùn)練 R1 則需要 600,000 個(gè)示例。
而中間模型正是彌合了這一數(shù)量鴻溝,使得生成如此大規(guī)模的高質(zhì)量數(shù)據(jù)成為可能。
SFT 訓(xùn)練示例
3.3 通用 RL 訓(xùn)練階段
這使得 R1 不僅在推理任務(wù)上表現(xiàn)卓越,在非推理任務(wù)上同樣可以取得優(yōu)異成績。
這一過程與前面提到的 RL 過程相似。但由于它延伸到非推理應(yīng)用領(lǐng)域,因此針對這類應(yīng)用的提示詞,采用了有效性和安全性獎(jiǎng)勵(lì)模型(與 Llama 類似)。
4. 架構(gòu)
與 GPT-2 和 GPT-3 奠基時(shí)期的模型一樣,DeepSeek-R1 是由 Transformer decoder 塊堆疊構(gòu)成的。
它總共包含 61 個(gè) decoder 塊,其中前三個(gè)是全連接層(dense layer),其余則是專家混合(Mixture-of-Experts,簡稱 MoE)層。
關(guān)于模型維度大小和其他超參數(shù)的配置如下:
參考資料:
https://www.ft.com/content/ee83c24c-9099-42a4-85c9-165e7af35105
https://www.nytimes.com/2025/01/28/technology/china-deepseek-ai-silicon-valley.html?unlocked_article_code=1.sk4.hgB2.qjaBLLlA_jiL
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。