DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

新智元 2025/2/1 15:06:04 責(zé)編：清源

評(píng)論：

外媒 SemiAnalysis 的一篇深度長(zhǎng)文，全面分析了 DeepSeek 背后的秘密 —— 不是「副業(yè)」項(xiàng)目、實(shí)際投入的訓(xùn)練成本遠(yuǎn)超 600 萬(wàn)美金、150 多位高校人才千萬(wàn)年薪，攻克 MLA 直接讓推理成本暴降......

DeepSeek 這波強(qiáng)攻，徹底把 OpenAI 逼急了 —— 深夜緊急上線 o3-mini。

整整半個(gè)月，中國(guó) AI 承包了國(guó)內(nèi)外各大頭條，影響力只增不減。

關(guān)于 DeepSeek 模型訓(xùn)練數(shù)據(jù)、GPU 用量、成員構(gòu)成、RL 訓(xùn)練算法，早已成為所有人的關(guān)注焦點(diǎn)。

SemiAnalysis 一篇深度報(bào)道中，從多個(gè)方面進(jìn)行了推測(cè) —— 訓(xùn)練成本、對(duì)閉源模型利潤(rùn)影響、團(tuán)隊(duì)等等。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

其中一些關(guān)鍵亮點(diǎn)包括：

DeepSeek 不是「副業(yè)」，在 GPU 等硬件支出遠(yuǎn)超 5 億美元，論文中 600 萬(wàn)美元僅是預(yù)訓(xùn)練運(yùn)行 GPU 成本，研發(fā)、硬件總擁有成本（TCO）被排除在外
DeepSeek 大約有 5 萬(wàn)塊 Hopper GPU，包括特供版 H800 和 H20
DeepSeek 大約有 150 名員工，并定期從北大、浙大等招募頂尖人才，據(jù)稱有潛力的候選人能拿到超 130 萬(wàn)美元（934 萬(wàn)元）薪水
DeepSeek 一個(gè)關(guān)鍵創(chuàng)新 —— 多頭潛注意力（MLA），耗時(shí)多月開發(fā)，將每個(gè)查詢 KV 量減少 93.3%，顯著降低推理價(jià)格
o3 性能遠(yuǎn)超 R1 和 o1，谷歌 Gemini 2.0 Flash Thinking 與 R1 不相上下
V3 和 R1 發(fā)布后，H100 價(jià)格猛漲，杰文斯悖論（Jevon?s Paradox）正發(fā)揮作用

5 萬(wàn)塊 Hopper GPU，投資超 5 億美金

DeepSeek 背后頂級(jí)投資者幻方量化（High-Flyer），很早就洞察到了 AI 在金融領(lǐng)域之外的巨大潛力，以及規(guī)?；渴鸬年P(guān)鍵重要性。

基于這一認(rèn)知，他們持續(xù)擴(kuò)大 GPU 投資規(guī)模。

在使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后，幻方在 2021 年投資購(gòu)入了 10,000 塊 A100，這一決策最終證明是極具前瞻性的。

隨著業(yè)務(wù)發(fā)展，他們?cè)?2023 年 5 月決定分拆成立「DeepSeek」，以更專注地推進(jìn) AI 技術(shù)發(fā)展。由于當(dāng)時(shí)外部投資者對(duì) AI 領(lǐng)域持謹(jǐn)慎態(tài)度，幻方選擇自行提供資金支持。

目前，兩家公司在人力資源和計(jì)算資源方面保持密切合作。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

與媒體將其描述為「副業(yè)項(xiàng)目」不同，DeepSeek 已發(fā)展成為一個(gè)嚴(yán)肅且協(xié)調(diào)有序的重要項(xiàng)目。即使考慮到出口管制的影響，高級(jí)分析師估計(jì)他們?cè)?GPU 方面的投資規(guī)模已超 5 億美元。

據(jù) SemiAnalysis 評(píng)估，他們擁有約 50,000 塊 Hopper 架構(gòu) GPU，這些計(jì)算資源在幻方和 DeepSeek 之間共享使用，并在地理位置上進(jìn)行了分散部署，用于交易、推理、訓(xùn)練和研究等多個(gè)領(lǐng)域。

根據(jù)分析，DeepSeek 在服務(wù)器方面的資本支出總額約為 16 億美元，而運(yùn)營(yíng)這些計(jì)算集群的成本高達(dá) 9.44 億美元。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

150 + 頂尖人才，年薪 934 萬(wàn)

在人才戰(zhàn)略方面，DeepSeek 專注于招募中國(guó)本土人才，不過(guò)分看重候選人的過(guò)往履歷，而是更注重其實(shí)際能力和求知欲望。

他們經(jīng)常在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動(dòng)，現(xiàn)有員工中很多都來(lái)自這些學(xué)校。

公司的職位設(shè)置非常靈活，不會(huì)過(guò)分限定崗位職責(zé)，招聘廣告甚至強(qiáng)調(diào)可以自由使用數(shù)萬(wàn)個(gè) GPU 資源。

他們提供極具競(jìng)爭(zhēng)力的薪酬待遇，據(jù)報(bào)道為優(yōu)秀候選人提供的年薪可達(dá) 130 萬(wàn)美元以上，遠(yuǎn)超其他科技巨頭和 AI 實(shí)驗(yàn)室的水平。

目前公司約有 150 名員工，并保持快速擴(kuò)張態(tài)勢(shì)。

歷史經(jīng)驗(yàn)表明，資金充足且目標(biāo)明確的創(chuàng)業(yè)公司，往往能夠突破現(xiàn)有技術(shù)邊界。

與谷歌等大公司的繁瑣決策流程相比，DeepSeek 憑借自主融資的優(yōu)勢(shì)，能夠更快速地將創(chuàng)新理念付諸實(shí)踐。

有趣的是，DeepSeek 在運(yùn)營(yíng)模式上卻與谷歌相似，主要依靠自建數(shù)據(jù)中心而非外部服務(wù)提供商。

這種模式為技術(shù)創(chuàng)新提供了更大的實(shí)驗(yàn)空間，使他們能夠在整個(gè)技術(shù)棧上進(jìn)行深度創(chuàng)新。

在 SemiAnalysis 看來(lái)，DeepSeek 已經(jīng)成為當(dāng)今最優(yōu)秀的「開源權(quán)重」（open weights）實(shí)驗(yàn)室，其成就超越了 Meta Llama、Mistral 等競(jìng)爭(zhēng)對(duì)手。

訓(xùn)練成本不止 600 萬(wàn)美金

DeepSeek 的定價(jià)策略和運(yùn)營(yíng)效率在本周引發(fā)了廣泛關(guān)注，特別是有關(guān) DeepSeek V3 訓(xùn)練成本「600 萬(wàn)美元」的報(bào)道。

但事實(shí)上，預(yù)訓(xùn)練成本僅是整體投入中的一小部分。

訓(xùn)練成本解析

高級(jí)分析師認(rèn)為，預(yù)訓(xùn)練階段的支出遠(yuǎn)不能代表模型的實(shí)際總投入。

據(jù)他們?cè)u(píng)估，DeepSeek 在硬件方面的累計(jì)投資已遠(yuǎn)超 5 億美元。在開發(fā)新架構(gòu)的過(guò)程中，需要投入大量資源用于測(cè)試新理念、驗(yàn)證新架構(gòu)設(shè)計(jì)和進(jìn)行消融實(shí)驗(yàn)（ablation studies）。

比如，作為 DeepSeek 重要技術(shù)突破的多頭潛注意力機(jī)制（Multi-Head Latent Attention），其開發(fā)周期就長(zhǎng)達(dá)數(shù)月，消耗了大量的人力資源和計(jì)算資源。

論文中，提到的 600 萬(wàn)美元僅指預(yù)訓(xùn)練階段的 GPU 直接成本，這只是模型總成本的一個(gè)組成部分。

其中并未包含研發(fā)投入、硬件設(shè)施的總擁有成本（TCO）等關(guān)鍵要素。

舉例來(lái)說(shuō)，Claude 3.5 Sonnet 訓(xùn)練成本就達(dá)到了數(shù)千萬(wàn)美元。

如果這就是 Anthropic 所需的全部投入，他們就不會(huì)從谷歌籌集數(shù)十億美元，更不會(huì)從亞馬遜獲得數(shù)百億美元的投資。

這是因?yàn)樗麄冃枰掷m(xù)投入實(shí)驗(yàn)研究、架構(gòu)創(chuàng)新、數(shù)據(jù)采集與清洗、人才招募等多個(gè)方面。

算法優(yōu)化，讓性能差距縮小

V3 無(wú)疑是一個(gè)令人矚目的模型，但需要在合適的參照系下評(píng)估其成就。

許多分析將 V3 與 GPT-4o 進(jìn)行對(duì)比，強(qiáng)調(diào) V3 超越了后者的性能。這個(gè)結(jié)論雖然正確，但需要注意 GPT-4o 是在 2024 年 5 月發(fā)布的。

在 AI 快速迭代的背景下，半年前的技術(shù)水平已顯得相對(duì)陳舊。

此外，隨著時(shí)間推移，用更少的計(jì)算資源實(shí)現(xiàn)相當(dāng)或更強(qiáng)的性能，也符合行業(yè)發(fā)展規(guī)律。推理成本的持續(xù)下降正是 AI 進(jìn)步的重要標(biāo)志。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

一個(gè)典型的例子是，現(xiàn)在可以在普通筆記本電腦上運(yùn)行的小型模型，已能達(dá)到與 GPT-3 相當(dāng)?shù)男阅芩?，而后者在發(fā)布時(shí)需要超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練，且推理階段也需要多個(gè) GPU 支持。

換言之，算法的持續(xù)優(yōu)化使得訓(xùn)練和推理同等性能的模型，所需的計(jì)算資源不斷減少，這種趨勢(shì)在行業(yè)內(nèi)屢見不鮮。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

目前的發(fā)展趨勢(shì)表明，AI 實(shí)驗(yàn)室在絕對(duì)投入增加的同時(shí)，單位投入所能獲得的智能水平提升更為顯著。

據(jù)估計(jì)，算法效率每年提升約 4 倍，這意味著實(shí)現(xiàn)相同性能所需的計(jì)算資源每年減少 75%。

Anthropic CEO Dario 的觀點(diǎn)更為樂(lè)觀，認(rèn)為算法優(yōu)化可以帶來(lái) 10 倍的效率提升。

就 GPT-3 級(jí)別的模型推理成本而言，已暴降 1200 倍。

在分析 GPT-4 成本演變時(shí)，高級(jí)分析師還觀察到類似的下降趨勢(shì)，盡管仍處于成本優(yōu)化曲線的早期階段。

與前述分析不同的是，這里的成本差異反映了性能提升和效率優(yōu)化的綜合效果，而非保持性能不變的單純比較。

在這種情況下，算法改進(jìn)和優(yōu)化措施共同帶來(lái)了約 10 倍的成本降低和性能提升。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

值得強(qiáng)調(diào)的是，DeepSeek 獨(dú)特之處在于他們率先實(shí)現(xiàn)了這一成本和性能的突破。

雖然開源模型權(quán)重的做法，此前已有 Mistral 和 Llama 等先例，但 DeepSeek 的成就仍然顯著。

考慮到行業(yè)發(fā)展趨勢(shì)，到今年年底，相關(guān)成本可能還會(huì)進(jìn)一步下降 5 倍左右。

R1 與 o1 打平手，「推理」新范式

另一個(gè)引人關(guān)注的問(wèn)題是，R1 能夠達(dá)到與 o1 相當(dāng)?shù)男阅芩?，?o1 僅在去年 9 月才發(fā)布。

那么，DeepSeek 是如何能在如此短的時(shí)間內(nèi)，實(shí)現(xiàn)這一跨越的？

其關(guān)鍵在于，「推理」這一新范式的出現(xiàn)。

與傳統(tǒng)范式相比，推理范式具有更快的迭代速度，且能以較少的計(jì)算資源獲得顯著收益。

正如 SemiAnalysis 在 scaling law 報(bào)告中指出的，傳統(tǒng)范式主要依賴預(yù)訓(xùn)練，這種方式不僅成本越來(lái)越高，而且越來(lái)越難以實(shí)現(xiàn)穩(wěn)定的性能提升。

新的推理范式，主要通過(guò)合成數(shù)據(jù)生成和在現(xiàn)有模型基礎(chǔ)上進(jìn)行后訓(xùn)練強(qiáng)化學(xué)習(xí)來(lái)提升推理能力，這使得以更低成本獲得快速進(jìn)展成為可能。

隨著業(yè)界逐步掌握這一新范式的擴(kuò)展技巧，高級(jí)分析師預(yù)計(jì)不同模型之間在能力匹配上的時(shí)間差距可能會(huì)進(jìn)一步拉大。

雖然 R1 在推理性能上確實(shí)達(dá)到了相當(dāng)水平，但它并非在所有評(píng)估指標(biāo)上都占據(jù)優(yōu)勢(shì)，在許多場(chǎng)景下其表現(xiàn)甚至不如 o1。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

OpenAI 最近發(fā)布的 o3 測(cè)試結(jié)果顯示，其性能提升幾乎呈現(xiàn)垂直上升趨勢(shì)。

這似乎印證了「深度學(xué)習(xí)遇到了瓶頸」的說(shuō)法，只是這個(gè)瓶頸的性質(zhì)與以往不同。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

谷歌推理模型，實(shí)力相當(dāng)

在 R1 引發(fā)廣泛關(guān)注的同時(shí)，一個(gè)重要事實(shí)往往被忽視：谷歌在一個(gè)月前就推出了一款更具性價(jià)比的推理模型 ——Gemini Flash 2.0 Thinking。

這個(gè)模型不僅可以直接使用，而且通過(guò) API 提供了更長(zhǎng)的上下文長(zhǎng)度。

在已公布的基準(zhǔn)測(cè)試中，F(xiàn)lash 2.0 Thinking 表現(xiàn)優(yōu)于 R1，盡管基準(zhǔn)測(cè)試并不能完全反映模型的真實(shí)能力。谷歌僅公布了 3 項(xiàng)基準(zhǔn)測(cè)試結(jié)果，這顯然不足以提供完整的對(duì)比。

即便如此，分析師認(rèn)為谷歌的模型具有很強(qiáng)的穩(wěn)定性，在多個(gè)方面都能與 R1 分庭抗禮，只是沒(méi)有獲得應(yīng)有的關(guān)注度。

這可能部分源于谷歌欠佳的市場(chǎng)策略和用戶體驗(yàn)，也與出乎意料的競(jìng)爭(zhēng)者 R1 的到來(lái)有關(guān)。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

需要強(qiáng)調(diào)的是，這些比較并不會(huì)削弱 DeepSeek 的突出成就。

正是憑借快速行動(dòng)、充足資金、卓越智慧和明確目標(biāo)的創(chuàng)業(yè)公司特質(zhì)，DeepSeek 才能在推理模型的競(jìng)爭(zhēng)中超越 Meta 這樣的科技巨頭。

中國(guó) MLA 創(chuàng)新，讓全世界抄作業(yè)

接下來(lái)，讓我深入扒一扒 DeepSeek 所取得的領(lǐng)先實(shí)驗(yàn)室尚未實(shí)現(xiàn)的技術(shù)突破。

SemiAnalysis 高級(jí)分析師預(yù)計(jì)，DeepSeek 發(fā)布的任何技術(shù)改進(jìn)，都會(huì)被西方實(shí)驗(yàn)室迅速?gòu)?fù)制。

那么，這些突破性進(jìn)展是什么？

實(shí)際上，主要的架構(gòu)創(chuàng)新與 V3 模型密切相關(guān)，該模型也是 R1 的基礎(chǔ)模型。

訓(xùn)練（前期和后期）

不是「下一個(gè) token 預(yù)測(cè)」，而是「多 token 預(yù)測(cè)」

DeepSeek V3 以前所未見的規(guī)模實(shí)現(xiàn)了多 Token 預(yù)測(cè)（MTP）技術(shù)，這些新增的注意力模塊可以預(yù)測(cè)接下來(lái)的多個(gè) Token，而不是傳統(tǒng)的單個(gè) Token。

這顯著提高了訓(xùn)練階段的模型性能，且這些模塊可以在推理階段移除。

這是一個(gè)典型的算法創(chuàng)新案例，實(shí)現(xiàn)了在更低計(jì)算資源消耗下的性能提升。

其他方面，雖然 DeepSeek 在訓(xùn)練中采用了 FP8 精度，但像全球一些頂尖的實(shí)驗(yàn)室已經(jīng)采用這項(xiàng)技術(shù)相當(dāng)長(zhǎng)時(shí)間了。

DeepSeek V3 采用了我們常見的「混合專家模型」（MoE）架構(gòu)，個(gè)由多個(gè)專門處理不同任務(wù)的小型專家模型組成的大模型，展現(xiàn)出強(qiáng)大的涌現(xiàn)能力。

MoE 模型面臨的主要挑戰(zhàn)是，如何確定將哪個(gè) Token 分配給哪個(gè)子模型（即「專家」）。

DeepSeek 創(chuàng)新性地采用了一個(gè)「門控網(wǎng)絡(luò)」（gating network），能夠高效且平衡地將 Token 路由到相應(yīng)的專家，同時(shí)保持模型性能不受影響。

這意味著路由過(guò)程非常高效，在訓(xùn)練過(guò)程中每個(gè) Token 只需要調(diào)整小量參數(shù)（相較于模型整體規(guī)模）。

這既提高了訓(xùn)練效率，又降低了推理成本。

盡管有人擔(dān)心 MoE 帶來(lái)的效率提升，可能降低投資意愿，但 Dario 指出，更強(qiáng)大的 AI 模型帶來(lái)的經(jīng)濟(jì)效益非?？捎^，任何節(jié)省的成本都會(huì)立即被投入到開發(fā)更大規(guī)模的模型中。

因此，MoE 效率提升不會(huì)減少總體投資，反而會(huì)加速 AI 規(guī)?；M(jìn)程。

當(dāng)前，包括 OpenAI、谷歌、Anthropic 等一些公司正專注于擴(kuò)大模型的計(jì)算規(guī)模，并提高算法效率。

V3 打好了基礎(chǔ)，RL 立大功

對(duì)于 R1 而言，它極大地受益于其強(qiáng)大的基礎(chǔ)模型 ——V3，這在很大程度上要?dú)w功于強(qiáng)化學(xué)習(xí)（RL）。

RL 主要關(guān)注兩個(gè)方面：格式化（確保輸出連貫性）以及有用性與安全性（確保模型實(shí)用且無(wú)害）。

模型的推理能力，是在對(duì)合成數(shù)據(jù)集進(jìn)行微調(diào)過(guò)程中自然涌現(xiàn)的，這與 o1 的情況類似。

值得注意的是，R1 論文中并沒(méi)有提及具體的計(jì)算量，因?yàn)榕妒褂玫挠?jì)算資源，會(huì)暴露 DeepSeek 實(shí)際擁有的 GPU 數(shù)量遠(yuǎn)超過(guò)其對(duì)外宣稱的規(guī)模。

這種規(guī)模的強(qiáng)化學(xué)習(xí)需要龐大的計(jì)算資源，特別是在生成合成數(shù)據(jù)時(shí)。

談到蒸餾，R1 論文最引人注目的發(fā)現(xiàn)可能是，通過(guò)具有推理能力的模型輸出來(lái)微調(diào)較小的非推理模型，使其獲得推理能力。

數(shù)據(jù)集包含了約 80 萬(wàn)個(gè)樣本，現(xiàn)在研究人員可以利用 R1 的思維鏈（CoT）輸出創(chuàng)建自己的數(shù)據(jù)集，并借此開發(fā)具有推理能力的模型。

未來(lái)，我們可能會(huì)看到更多小模型展現(xiàn)出推理能力，從而提升小模型的整體性能。

多頭潛注意力（MLA）

如開頭所述，MLA 是一項(xiàng)重要的技術(shù)創(chuàng)新，它顯著降低了 DeepSeek 模型推理成本。

與標(biāo)準(zhǔn)注意力機(jī)制相比，MLA 將每次查詢所需的 KV 緩存減少了約 93.3%（KV 緩存是 Transforme 模型中的一種內(nèi)存機(jī)制，用于存儲(chǔ)表示對(duì)話上下文的數(shù)據(jù)，從而減少不必要的計(jì)算開銷）。

KV 緩存會(huì)隨著對(duì)話上下文的增長(zhǎng)而不斷擴(kuò)大，這會(huì)造成顯著的內(nèi)存限制。

通過(guò)大幅減少每次查詢所需的 KV 緩存量，可以相應(yīng)減少每次查詢所需的硬件資源，從而降低運(yùn)營(yíng)成本。

MLA 這項(xiàng)創(chuàng)新，特別引起了許多美國(guó)頂級(jí)實(shí)驗(yàn)室的關(guān)注。實(shí)際上，MLA 首次在 2024 年 5 月發(fā)布的 DeepSeek V2 中就已推出。

此外，由于 H20 芯片比 H100 具有更高的內(nèi)存帶寬和容量，DeepSeek 在推理工作負(fù)載方面獲得了更多效率提升。

R1 并非真正動(dòng)搖 o1 技術(shù)優(yōu)勢(shì)

在利潤(rùn)率方面，SemiAnalysis 發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象：R1 并非真正動(dòng)搖了 o1 的技術(shù)優(yōu)勢(shì)，而是以顯著更低的成本實(shí)現(xiàn)了相似的性能水平。

這種現(xiàn)象本質(zhì)上符合市場(chǎng)邏輯，接下來(lái)高級(jí)分析師將提出一個(gè)框架，來(lái)分析未來(lái)價(jià)格機(jī)制的運(yùn)作方式。

技術(shù)能力的提升往往能帶來(lái)更高的利潤(rùn)率。

這種情況與半導(dǎo)體制造業(yè)的發(fā)展模式極其相似，只是節(jié)奏更快。就像臺(tái)積電每當(dāng)率先突破新制程時(shí)，都能獲得顯著的定價(jià)優(yōu)勢(shì)，因?yàn)樗麄兲峁┝舜饲笆袌?chǎng)上不存在的產(chǎn)品。

其他落后的競(jìng)爭(zhēng)對(duì)手（如三星、英特爾）則會(huì)采取較低的定價(jià)策略，以在性價(jià)比上達(dá)到平衡。

對(duì)芯片制造商（在這個(gè)類比中，即 AI 實(shí)驗(yàn)室）來(lái)說(shuō)，一個(gè)有利條件是他們可以靈活調(diào)整產(chǎn)能分配。

當(dāng)新型號(hào)能提供更優(yōu)的性價(jià)比時(shí)，他們可以將產(chǎn)能轉(zhuǎn)移到新型號(hào)的生產(chǎn)上。雖然舊型號(hào)仍會(huì)繼續(xù)支持，但會(huì)相應(yīng)減少其供應(yīng)規(guī)模。

這種策略模式與當(dāng)前 AI 實(shí)驗(yàn)室的實(shí)際運(yùn)營(yíng)行為高度吻合，也反映了半導(dǎo)體制造業(yè)的基本規(guī)律。

率先破局者，手握定價(jià)權(quán)

這很可能就是 AI 能力發(fā)展的基本規(guī)律。

率先突破到新的能力層次，將帶來(lái)可觀的價(jià)格溢價(jià)，而那些能夠快速追趕到相同能力水平的競(jìng)爭(zhēng)者，只能獲得適度利潤(rùn)。

如果能為特定應(yīng)用場(chǎng)景保留較低能力水平的產(chǎn)品，這些產(chǎn)品仍將繼續(xù)存在。

但能夠追趕到領(lǐng)先能力水平的公司，將隨著每一代技術(shù)更迭而逐漸減少。

所有人見證了，R1 取得了領(lǐng)先水平，卻采用了 0 利潤(rùn)率的定價(jià)策略。

這種顯著的價(jià)格差異不禁讓人質(zhì)疑：為什么 OpenAI 的價(jià)格如此之高？這是因?yàn)樗麄儾捎昧嘶?SOTA 的前沿定價(jià)策略，享受著技術(shù)領(lǐng)先帶來(lái)的溢價(jià)優(yōu)勢(shì)。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

甚至就連剛剛上線的 o3-mini，網(wǎng)友也不忘暗諷一下模型的定價(jià)

SemiAnalysis 預(yù)計(jì)，AI 未來(lái)的發(fā)展速度，將超過(guò)領(lǐng)先芯片制造業(yè)的發(fā)展節(jié)奏。

快速實(shí)現(xiàn)最新能力意味著可以保持定價(jià)權(quán)（如 ChatGPT Pro），而能力落后則意味著更低的定價(jià)，主要收益將流向提供 token 服務(wù)的基礎(chǔ)設(shè)施提供商。

當(dāng)前正處于技術(shù)快速迭代的周期，我們將會(huì)看到產(chǎn)品以前所未有的速度更新?lián)Q代。

只要科技公司能夠通過(guò) scaling 能力來(lái)開發(fā)出新功能，并在這些功能基礎(chǔ)上創(chuàng)造價(jià)值，就應(yīng)該擁有定價(jià)權(quán)。

否則，開源模型市場(chǎng)將在下一代技術(shù)中迅速商品化。

在這種背景下，高級(jí)分析師認(rèn)為，市場(chǎng)存在一個(gè)「根本性的誤解」。

芯片制造業(yè)是目前資本最密集的行業(yè)，雖然全球沒(méi)有任何行業(yè)在研發(fā)投入上超過(guò)半導(dǎo)體行業(yè)，但這個(gè)最接近的現(xiàn)實(shí)類比實(shí)際上表明 —— 模型公司發(fā)展態(tài)勢(shì)越快，對(duì)高性能芯片的需求也越大。

將 AI token 與「杰文斯悖論」（技術(shù)進(jìn)步提高效率反而增加資源消耗）進(jìn)行比較時(shí)，我們可以發(fā)現(xiàn)深刻的歷史相似性。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

最初，業(yè)界并不確定是否能持續(xù)縮小晶體管尺寸，但當(dāng)這一可能性得到證實(shí)后，整個(gè)行業(yè)都致力于將 CMOS 工藝微縮到極限，并在此基礎(chǔ)上構(gòu)建有意義的功能。

目前，我們正處于整合多個(gè) CoT 模型和能力的早期階段。

我們正在像早期縮小晶體管一樣 scaling 模型規(guī)模，盡管這在技術(shù)進(jìn)步方面可能會(huì)經(jīng)歷一段異常忙碌的時(shí)期，但這種發(fā)展趨勢(shì)對(duì)英偉達(dá)來(lái)說(shuō)無(wú)疑是利好消息。

免費(fèi)，還能維持多久？

事實(shí)上，市場(chǎng)一直在尋找一個(gè)突破點(diǎn)，而這就成為了他們的選擇。

如果 DeepSeek 愿意接受零利潤(rùn)率甚至負(fù)利潤(rùn)率運(yùn)營(yíng)，他們確實(shí)可以維持如此低的價(jià)格水平。

但顯然，提供前沿 token 服務(wù)的價(jià)格彈性閾值要高得多。考慮到 DeepSeek 正在籌備新一輪融資，這種策略對(duì)他們來(lái)說(shuō)是有其戰(zhàn)略意義的。

DeepSeek 剛剛在推理能力這個(gè)關(guān)鍵突破點(diǎn)上，打破了 OpenAI 的高利潤(rùn)率格局。

但這種領(lǐng)先優(yōu)勢(shì)能持續(xù)多久？

SemiAnalysis 對(duì)此持懷疑態(tài)度 —— 這更像是一個(gè)開源實(shí)驗(yàn)室展示了它能夠達(dá)到閉源實(shí)驗(yàn)室的能力水平。

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

高級(jí)分析師確實(shí)認(rèn)為，一個(gè)更強(qiáng)大的開源實(shí)驗(yàn)室（而 DeepSeek 現(xiàn)在無(wú)疑是其中表現(xiàn)最好的）對(duì)新興云服務(wù)提供商（Neoclouds）和各類服務(wù)提供商來(lái)說(shuō)是重大利好。

無(wú)論采用開源還是閉源模式，計(jì)算資源的集中度仍然至關(guān)重要。

但如果上層服務(wù)提供商選擇免費(fèi)提供其產(chǎn)品，那么提升計(jì)算資源的商業(yè)價(jià)值就成為可能。

這意味著更多的資金將流向計(jì)算資源提供方而非閉源模型提供商，換句話說(shuō)，支出將更多地流向硬件設(shè)施而非其他環(huán)節(jié)。

與此同時(shí)，軟件企業(yè)也將從這一趨勢(shì)中獲得巨大收益。

參考資料：

https://semianalysis.com/2025/01/31/deepseek-debates/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

5 萬(wàn)塊 Hopper GPU，投資超 5 億美金

150 + 頂尖人才，年薪 934 萬(wàn)

訓(xùn)練成本不止 600 萬(wàn)美金

訓(xùn)練成本解析

算法優(yōu)化，讓性能差距縮小

R1 與 o1 打平手，「推理」新范式

谷歌推理模型，實(shí)力相當(dāng)

中國(guó) MLA 創(chuàng)新，讓全世界抄作業(yè)

訓(xùn)練（前期和后期）

多頭潛注意力（MLA）

R1 并非真正動(dòng)搖 o1 技術(shù)優(yōu)勢(shì)

率先破局者，手握定價(jià)權(quán)

免費(fèi)，還能維持多久？

相關(guān)文章

DeepSeek 突圍奧秘曝光：一招 MLA 讓全世界抄作業(yè)，150 + 天才集結(jié)，開出千萬(wàn)年薪

5 萬(wàn)塊 Hopper GPU，投資超 5 億美金

150 + 頂尖人才，年薪 934 萬(wàn)

算法優(yōu)化，讓性能差距縮小

R1 與 o1 打平手，「推理」新范式

谷歌推理模型，實(shí)力相當(dāng)

中國(guó) MLA 創(chuàng)新，讓全世界抄作業(yè)

免費(fèi)，還能維持多久？