設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek 突圍奧秘曝光:一招 MLA 讓全世界抄作業(yè),150 + 天才集結(jié),開出千萬(wàn)年薪

新智元 2025/2/1 15:06:04 責(zé)編:清源

外媒 SemiAnalysis 的一篇深度長(zhǎng)文,全面分析了 DeepSeek 背后的秘密 —— 不是「副業(yè)」項(xiàng)目、實(shí)際投入的訓(xùn)練成本遠(yuǎn)超 600 萬(wàn)美金、150 多位高校人才千萬(wàn)年薪,攻克 MLA 直接讓推理成本暴降......

DeepSeek 這波強(qiáng)攻,徹底把 OpenAI 逼急了 —— 深夜緊急上線 o3-mini

整整半個(gè)月,中國(guó) AI 承包了國(guó)內(nèi)外各大頭條,影響力只增不減。

關(guān)于 DeepSeek 模型訓(xùn)練數(shù)據(jù)、GPU 用量、成員構(gòu)成、RL 訓(xùn)練算法,早已成為所有人的關(guān)注焦點(diǎn)。

SemiAnalysis 一篇深度報(bào)道中,從多個(gè)方面進(jìn)行了推測(cè) —— 訓(xùn)練成本、對(duì)閉源模型利潤(rùn)影響、團(tuán)隊(duì)等等。

其中一些關(guān)鍵亮點(diǎn)包括:

  • DeepSeek 不是「副業(yè)」,在 GPU 等硬件支出遠(yuǎn)超 5 億美元,論文中 600 萬(wàn)美元僅是預(yù)訓(xùn)練運(yùn)行 GPU 成本,研發(fā)、硬件總擁有成本(TCO)被排除在外

  • DeepSeek 大約有 5 萬(wàn)塊 Hopper GPU,包括特供版 H800 和 H20

  • DeepSeek 大約有 150 名員工,并定期從北大、浙大等招募頂尖人才,據(jù)稱有潛力的候選人能拿到超 130 萬(wàn)美元(934 萬(wàn)元)薪水

  • DeepSeek 一個(gè)關(guān)鍵創(chuàng)新 —— 多頭潛注意力(MLA),耗時(shí)多月開發(fā),將每個(gè)查詢 KV 量減少 93.3%,顯著降低推理價(jià)格

  • o3 性能遠(yuǎn)超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 與 R1 不相上下

  • V3 和 R1 發(fā)布后,H100 價(jià)格猛漲,杰文斯悖論(Jevon?s Paradox)正發(fā)揮作用

5 萬(wàn)塊 Hopper GPU,投資超 5 億美金

DeepSeek 背后頂級(jí)投資者幻方量化(High-Flyer),很早就洞察到了 AI 在金融領(lǐng)域之外的巨大潛力,以及規(guī)?;渴鸬年P(guān)鍵重要性。

基于這一認(rèn)知,他們持續(xù)擴(kuò)大 GPU 投資規(guī)模。

在使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后,幻方在 2021 年投資購(gòu)入了 10,000 塊 A100,這一決策最終證明是極具前瞻性的。

隨著業(yè)務(wù)發(fā)展,他們?cè)?2023 年 5 月決定分拆成立「DeepSeek」,以更專注地推進(jìn) AI 技術(shù)發(fā)展。由于當(dāng)時(shí)外部投資者對(duì) AI 領(lǐng)域持謹(jǐn)慎態(tài)度,幻方選擇自行提供資金支持。

目前,兩家公司在人力資源和計(jì)算資源方面保持密切合作。

與媒體將其描述為「副業(yè)項(xiàng)目」不同,DeepSeek 已發(fā)展成為一個(gè)嚴(yán)肅且協(xié)調(diào)有序的重要項(xiàng)目。即使考慮到出口管制的影響,高級(jí)分析師估計(jì)他們?cè)?GPU 方面的投資規(guī)模已超 5 億美元。

據(jù) SemiAnalysis 評(píng)估,他們擁有約 50,000 塊 Hopper 架構(gòu) GPU,這些計(jì)算資源在幻方和 DeepSeek 之間共享使用,并在地理位置上進(jìn)行了分散部署,用于交易、推理、訓(xùn)練和研究等多個(gè)領(lǐng)域。

根據(jù)分析,DeepSeek 在服務(wù)器方面的資本支出總額約為 16 億美元,而運(yùn)營(yíng)這些計(jì)算集群的成本高達(dá) 9.44 億美元。

150 + 頂尖人才,年薪 934 萬(wàn)

在人才戰(zhàn)略方面,DeepSeek 專注于招募中國(guó)本土人才,不過(guò)分看重候選人的過(guò)往履歷,而是更注重其實(shí)際能力和求知欲望。

他們經(jīng)常在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動(dòng),現(xiàn)有員工中很多都來(lái)自這些學(xué)校。

公司的職位設(shè)置非常靈活,不會(huì)過(guò)分限定崗位職責(zé),招聘廣告甚至強(qiáng)調(diào)可以自由使用數(shù)萬(wàn)個(gè) GPU 資源。

他們提供極具競(jìng)爭(zhēng)力的薪酬待遇,據(jù)報(bào)道為優(yōu)秀候選人提供的年薪可達(dá) 130 萬(wàn)美元以上,遠(yuǎn)超其他科技巨頭和 AI 實(shí)驗(yàn)室的水平。

目前公司約有 150 名員工,并保持快速擴(kuò)張態(tài)勢(shì)。

歷史經(jīng)驗(yàn)表明,資金充足且目標(biāo)明確的創(chuàng)業(yè)公司,往往能夠突破現(xiàn)有技術(shù)邊界。

與谷歌等大公司的繁瑣決策流程相比,DeepSeek 憑借自主融資的優(yōu)勢(shì),能夠更快速地將創(chuàng)新理念付諸實(shí)踐。

有趣的是,DeepSeek 在運(yùn)營(yíng)模式上卻與谷歌相似,主要依靠自建數(shù)據(jù)中心而非外部服務(wù)提供商。

這種模式為技術(shù)創(chuàng)新提供了更大的實(shí)驗(yàn)空間,使他們能夠在整個(gè)技術(shù)棧上進(jìn)行深度創(chuàng)新。

在 SemiAnalysis 看來(lái),DeepSeek 已經(jīng)成為當(dāng)今最優(yōu)秀的「開源權(quán)重」(open weights)實(shí)驗(yàn)室,其成就超越了 Meta Llama、Mistral 等競(jìng)爭(zhēng)對(duì)手。

訓(xùn)練成本不止 600 萬(wàn)美金

DeepSeek 的定價(jià)策略和運(yùn)營(yíng)效率在本周引發(fā)了廣泛關(guān)注,特別是有關(guān) DeepSeek V3 訓(xùn)練成本「600 萬(wàn)美元」的報(bào)道。

但事實(shí)上,預(yù)訓(xùn)練成本僅是整體投入中的一小部分。

訓(xùn)練成本解析

高級(jí)分析師認(rèn)為,預(yù)訓(xùn)練階段的支出遠(yuǎn)不能代表模型的實(shí)際總投入。

據(jù)他們?cè)u(píng)估,DeepSeek 在硬件方面的累計(jì)投資已遠(yuǎn)超 5 億美元。在開發(fā)新架構(gòu)的過(guò)程中,需要投入大量資源用于測(cè)試新理念、驗(yàn)證新架構(gòu)設(shè)計(jì)和進(jìn)行消融實(shí)驗(yàn)(ablation studies)。

比如,作為 DeepSeek 重要技術(shù)突破的多頭潛注意力機(jī)制(Multi-Head Latent Attention),其開發(fā)周期就長(zhǎng)達(dá)數(shù)月,消耗了大量的人力資源和計(jì)算資源。

論文中,提到的 600 萬(wàn)美元僅指預(yù)訓(xùn)練階段的 GPU 直接成本,這只是模型總成本的一個(gè)組成部分。

其中并未包含研發(fā)投入、硬件設(shè)施的總擁有成本(TCO)等關(guān)鍵要素。

舉例來(lái)說(shuō),Claude 3.5 Sonnet 訓(xùn)練成本就達(dá)到了數(shù)千萬(wàn)美元。

如果這就是 Anthropic 所需的全部投入,他們就不會(huì)從谷歌籌集數(shù)十億美元,更不會(huì)從亞馬遜獲得數(shù)百億美元的投資。

這是因?yàn)樗麄冃枰掷m(xù)投入實(shí)驗(yàn)研究、架構(gòu)創(chuàng)新、數(shù)據(jù)采集與清洗、人才招募等多個(gè)方面。

算法優(yōu)化,讓性能差距縮小

V3 無(wú)疑是一個(gè)令人矚目的模型,但需要在合適的參照系下評(píng)估其成就。

許多分析將 V3 與 GPT-4o 進(jìn)行對(duì)比,強(qiáng)調(diào) V3 超越了后者的性能。這個(gè)結(jié)論雖然正確,但需要注意 GPT-4o 是在 2024 年 5 月發(fā)布的。

在 AI 快速迭代的背景下,半年前的技術(shù)水平已顯得相對(duì)陳舊。

此外,隨著時(shí)間推移,用更少的計(jì)算資源實(shí)現(xiàn)相當(dāng)或更強(qiáng)的性能,也符合行業(yè)發(fā)展規(guī)律。推理成本的持續(xù)下降正是 AI 進(jìn)步的重要標(biāo)志。

一個(gè)典型的例子是,現(xiàn)在可以在普通筆記本電腦上運(yùn)行的小型模型,已能達(dá)到與 GPT-3 相當(dāng)?shù)男阅芩?,而后者在發(fā)布時(shí)需要超級(jí)計(jì)算機(jī)進(jìn)行訓(xùn)練,且推理階段也需要多個(gè) GPU 支持。

換言之,算法的持續(xù)優(yōu)化使得訓(xùn)練和推理同等性能的模型,所需的計(jì)算資源不斷減少,這種趨勢(shì)在行業(yè)內(nèi)屢見不鮮。

目前的發(fā)展趨勢(shì)表明,AI 實(shí)驗(yàn)室在絕對(duì)投入增加的同時(shí),單位投入所能獲得的智能水平提升更為顯著。

據(jù)估計(jì),算法效率每年提升約 4 倍,這意味著實(shí)現(xiàn)相同性能所需的計(jì)算資源每年減少 75%。

Anthropic CEO Dario 的觀點(diǎn)更為樂(lè)觀,認(rèn)為算法優(yōu)化可以帶來(lái) 10 倍的效率提升。

就 GPT-3 級(jí)別的模型推理成本而言,已暴降 1200 倍。

在分析 GPT-4 成本演變時(shí),高級(jí)分析師還觀察到類似的下降趨勢(shì),盡管仍處于成本優(yōu)化曲線的早期階段。

與前述分析不同的是,這里的成本差異反映了性能提升和效率優(yōu)化的綜合效果,而非保持性能不變的單純比較。

在這種情況下,算法改進(jìn)和優(yōu)化措施共同帶來(lái)了約 10 倍的成本降低和性能提升。

值得強(qiáng)調(diào)的是,DeepSeek 獨(dú)特之處在于他們率先實(shí)現(xiàn)了這一成本和性能的突破。

雖然開源模型權(quán)重的做法,此前已有 Mistral 和 Llama 等先例,但 DeepSeek 的成就仍然顯著。

考慮到行業(yè)發(fā)展趨勢(shì),到今年年底,相關(guān)成本可能還會(huì)進(jìn)一步下降 5 倍左右。

R1 與 o1 打平手,「推理」新范式

另一個(gè)引人關(guān)注的問(wèn)題是,R1 能夠達(dá)到與 o1 相當(dāng)?shù)男阅芩?,?o1 僅在去年 9 月才發(fā)布。

那么,DeepSeek 是如何能在如此短的時(shí)間內(nèi),實(shí)現(xiàn)這一跨越的?

其關(guān)鍵在于,「推理」這一新范式的出現(xiàn)。

與傳統(tǒng)范式相比,推理范式具有更快的迭代速度,且能以較少的計(jì)算資源獲得顯著收益。

正如 SemiAnalysis 在 scaling law 報(bào)告中指出的,傳統(tǒng)范式主要依賴預(yù)訓(xùn)練,這種方式不僅成本越來(lái)越高,而且越來(lái)越難以實(shí)現(xiàn)穩(wěn)定的性能提升。

新的推理范式,主要通過(guò)合成數(shù)據(jù)生成和在現(xiàn)有模型基礎(chǔ)上進(jìn)行后訓(xùn)練強(qiáng)化學(xué)習(xí)來(lái)提升推理能力,這使得以更低成本獲得快速進(jìn)展成為可能。

隨著業(yè)界逐步掌握這一新范式的擴(kuò)展技巧,高級(jí)分析師預(yù)計(jì)不同模型之間在能力匹配上的時(shí)間差距可能會(huì)進(jìn)一步拉大。

雖然 R1 在推理性能上確實(shí)達(dá)到了相當(dāng)水平,但它并非在所有評(píng)估指標(biāo)上都占據(jù)優(yōu)勢(shì),在許多場(chǎng)景下其表現(xiàn)甚至不如 o1。

OpenAI 最近發(fā)布的 o3 測(cè)試結(jié)果顯示,其性能提升幾乎呈現(xiàn)垂直上升趨勢(shì)。

這似乎印證了「深度學(xué)習(xí)遇到了瓶頸」的說(shuō)法,只是這個(gè)瓶頸的性質(zhì)與以往不同。

谷歌推理模型,實(shí)力相當(dāng)

在 R1 引發(fā)廣泛關(guān)注的同時(shí),一個(gè)重要事實(shí)往往被忽視:谷歌在一個(gè)月前就推出了一款更具性價(jià)比的推理模型 ——Gemini Flash 2.0 Thinking。

這個(gè)模型不僅可以直接使用,而且通過(guò) API 提供了更長(zhǎng)的上下文長(zhǎng)度。

在已公布的基準(zhǔn)測(cè)試中,F(xiàn)lash 2.0 Thinking 表現(xiàn)優(yōu)于 R1,盡管基準(zhǔn)測(cè)試并不能完全反映模型的真實(shí)能力。谷歌僅公布了 3 項(xiàng)基準(zhǔn)測(cè)試結(jié)果,這顯然不足以提供完整的對(duì)比。

即便如此,分析師認(rèn)為谷歌的模型具有很強(qiáng)的穩(wěn)定性,在多個(gè)方面都能與 R1 分庭抗禮,只是沒(méi)有獲得應(yīng)有的關(guān)注度。

這可能部分源于谷歌欠佳的市場(chǎng)策略和用戶體驗(yàn),也與出乎意料的競(jìng)爭(zhēng)者 R1 的到來(lái)有關(guān)。

需要強(qiáng)調(diào)的是,這些比較并不會(huì)削弱 DeepSeek 的突出成就。

正是憑借快速行動(dòng)、充足資金、卓越智慧和明確目標(biāo)的創(chuàng)業(yè)公司特質(zhì),DeepSeek 才能在推理模型的競(jìng)爭(zhēng)中超越 Meta 這樣的科技巨頭。

中國(guó) MLA 創(chuàng)新,讓全世界抄作業(yè)

接下來(lái),讓我深入扒一扒 DeepSeek 所取得的領(lǐng)先實(shí)驗(yàn)室尚未實(shí)現(xiàn)的技術(shù)突破。

SemiAnalysis 高級(jí)分析師預(yù)計(jì),DeepSeek 發(fā)布的任何技術(shù)改進(jìn),都會(huì)被西方實(shí)驗(yàn)室迅速?gòu)?fù)制。

那么,這些突破性進(jìn)展是什么?

實(shí)際上,主要的架構(gòu)創(chuàng)新與 V3 模型密切相關(guān),該模型也是 R1 的基礎(chǔ)模型。

訓(xùn)練(前期和后期)

不是「下一個(gè) token 預(yù)測(cè)」,而是「多 token 預(yù)測(cè)」

DeepSeek V3 以前所未見的規(guī)模實(shí)現(xiàn)了多 Token 預(yù)測(cè)(MTP)技術(shù),這些新增的注意力模塊可以預(yù)測(cè)接下來(lái)的多個(gè) Token,而不是傳統(tǒng)的單個(gè) Token。

這顯著提高了訓(xùn)練階段的模型性能,且這些模塊可以在推理階段移除。

這是一個(gè)典型的算法創(chuàng)新案例,實(shí)現(xiàn)了在更低計(jì)算資源消耗下的性能提升。

其他方面,雖然 DeepSeek 在訓(xùn)練中采用了 FP8 精度,但像全球一些頂尖的實(shí)驗(yàn)室已經(jīng)采用這項(xiàng)技術(shù)相當(dāng)長(zhǎng)時(shí)間了。

DeepSeek V3 采用了我們常見的「混合專家模型」(MoE)架構(gòu),個(gè)由多個(gè)專門處理不同任務(wù)的小型專家模型組成的大模型,展現(xiàn)出強(qiáng)大的涌現(xiàn)能力。

MoE 模型面臨的主要挑戰(zhàn)是,如何確定將哪個(gè) Token 分配給哪個(gè)子模型(即「專家」)。

DeepSeek 創(chuàng)新性地采用了一個(gè)「門控網(wǎng)絡(luò)」(gating network),能夠高效且平衡地將 Token 路由到相應(yīng)的專家,同時(shí)保持模型性能不受影響。

這意味著路由過(guò)程非常高效,在訓(xùn)練過(guò)程中每個(gè) Token 只需要調(diào)整小量參數(shù)(相較于模型整體規(guī)模)。

這既提高了訓(xùn)練效率,又降低了推理成本。

盡管有人擔(dān)心 MoE 帶來(lái)的效率提升,可能降低投資意愿,但 Dario 指出,更強(qiáng)大的 AI 模型帶來(lái)的經(jīng)濟(jì)效益非??捎^,任何節(jié)省的成本都會(huì)立即被投入到開發(fā)更大規(guī)模的模型中。

因此,MoE 效率提升不會(huì)減少總體投資,反而會(huì)加速 AI 規(guī)?;M(jìn)程。

當(dāng)前,包括 OpenAI、谷歌、Anthropic 等一些公司正專注于擴(kuò)大模型的計(jì)算規(guī)模,并提高算法效率。

V3 打好了基礎(chǔ),RL 立大功

對(duì)于 R1 而言,它極大地受益于其強(qiáng)大的基礎(chǔ)模型 ——V3,這在很大程度上要?dú)w功于強(qiáng)化學(xué)習(xí)(RL)。

RL 主要關(guān)注兩個(gè)方面:格式化(確保輸出連貫性)以及有用性與安全性(確保模型實(shí)用且無(wú)害)。

模型的推理能力,是在對(duì)合成數(shù)據(jù)集進(jìn)行微調(diào)過(guò)程中自然涌現(xiàn)的,這與 o1 的情況類似。

值得注意的是,R1 論文中并沒(méi)有提及具體的計(jì)算量,因?yàn)榕妒褂玫挠?jì)算資源,會(huì)暴露 DeepSeek 實(shí)際擁有的 GPU 數(shù)量遠(yuǎn)超過(guò)其對(duì)外宣稱的規(guī)模。

這種規(guī)模的強(qiáng)化學(xué)習(xí)需要龐大的計(jì)算資源,特別是在生成合成數(shù)據(jù)時(shí)。

談到蒸餾,R1 論文最引人注目的發(fā)現(xiàn)可能是,通過(guò)具有推理能力的模型輸出來(lái)微調(diào)較小的非推理模型,使其獲得推理能力。

數(shù)據(jù)集包含了約 80 萬(wàn)個(gè)樣本,現(xiàn)在研究人員可以利用 R1 的思維鏈(CoT)輸出創(chuàng)建自己的數(shù)據(jù)集,并借此開發(fā)具有推理能力的模型。

未來(lái),我們可能會(huì)看到更多小模型展現(xiàn)出推理能力,從而提升小模型的整體性能。

多頭潛注意力(MLA)

如開頭所述,MLA 是一項(xiàng)重要的技術(shù)創(chuàng)新,它顯著降低了 DeepSeek 模型推理成本。

與標(biāo)準(zhǔn)注意力機(jī)制相比,MLA 將每次查詢所需的 KV 緩存減少了約 93.3%(KV 緩存是 Transforme 模型中的一種內(nèi)存機(jī)制,用于存儲(chǔ)表示對(duì)話上下文的數(shù)據(jù),從而減少不必要的計(jì)算開銷)。

KV 緩存會(huì)隨著對(duì)話上下文的增長(zhǎng)而不斷擴(kuò)大,這會(huì)造成顯著的內(nèi)存限制。

通過(guò)大幅減少每次查詢所需的 KV 緩存量,可以相應(yīng)減少每次查詢所需的硬件資源,從而降低運(yùn)營(yíng)成本。

MLA 這項(xiàng)創(chuàng)新,特別引起了許多美國(guó)頂級(jí)實(shí)驗(yàn)室的關(guān)注。實(shí)際上,MLA 首次在 2024 年 5 月發(fā)布的 DeepSeek V2 中就已推出。

此外,由于 H20 芯片比 H100 具有更高的內(nèi)存帶寬和容量,DeepSeek 在推理工作負(fù)載方面獲得了更多效率提升。

R1 并非真正動(dòng)搖 o1 技術(shù)優(yōu)勢(shì)

在利潤(rùn)率方面,SemiAnalysis 發(fā)現(xiàn)了一個(gè)關(guān)鍵現(xiàn)象:R1 并非真正動(dòng)搖了 o1 的技術(shù)優(yōu)勢(shì),而是以顯著更低的成本實(shí)現(xiàn)了相似的性能水平。

這種現(xiàn)象本質(zhì)上符合市場(chǎng)邏輯,接下來(lái)高級(jí)分析師將提出一個(gè)框架,來(lái)分析未來(lái)價(jià)格機(jī)制的運(yùn)作方式。

技術(shù)能力的提升往往能帶來(lái)更高的利潤(rùn)率。

這種情況與半導(dǎo)體制造業(yè)的發(fā)展模式極其相似,只是節(jié)奏更快。就像臺(tái)積電每當(dāng)率先突破新制程時(shí),都能獲得顯著的定價(jià)優(yōu)勢(shì),因?yàn)樗麄兲峁┝舜饲笆袌?chǎng)上不存在的產(chǎn)品。

其他落后的競(jìng)爭(zhēng)對(duì)手(如三星、英特爾)則會(huì)采取較低的定價(jià)策略,以在性價(jià)比上達(dá)到平衡。

對(duì)芯片制造商(在這個(gè)類比中,即 AI 實(shí)驗(yàn)室)來(lái)說(shuō),一個(gè)有利條件是他們可以靈活調(diào)整產(chǎn)能分配。

當(dāng)新型號(hào)能提供更優(yōu)的性價(jià)比時(shí),他們可以將產(chǎn)能轉(zhuǎn)移到新型號(hào)的生產(chǎn)上。雖然舊型號(hào)仍會(huì)繼續(xù)支持,但會(huì)相應(yīng)減少其供應(yīng)規(guī)模。

這種策略模式與當(dāng)前 AI 實(shí)驗(yàn)室的實(shí)際運(yùn)營(yíng)行為高度吻合,也反映了半導(dǎo)體制造業(yè)的基本規(guī)律。

率先破局者,手握定價(jià)權(quán)

這很可能就是 AI 能力發(fā)展的基本規(guī)律。

率先突破到新的能力層次,將帶來(lái)可觀的價(jià)格溢價(jià),而那些能夠快速追趕到相同能力水平的競(jìng)爭(zhēng)者,只能獲得適度利潤(rùn)。

如果能為特定應(yīng)用場(chǎng)景保留較低能力水平的產(chǎn)品,這些產(chǎn)品仍將繼續(xù)存在。

但能夠追趕到領(lǐng)先能力水平的公司,將隨著每一代技術(shù)更迭而逐漸減少。

所有人見證了,R1 取得了領(lǐng)先水平,卻采用了 0 利潤(rùn)率的定價(jià)策略。

這種顯著的價(jià)格差異不禁讓人質(zhì)疑:為什么 OpenAI 的價(jià)格如此之高?這是因?yàn)樗麄儾捎昧嘶?SOTA 的前沿定價(jià)策略,享受著技術(shù)領(lǐng)先帶來(lái)的溢價(jià)優(yōu)勢(shì)。

甚至就連剛剛上線的 o3-mini,網(wǎng)友也不忘暗諷一下模型的定價(jià)

SemiAnalysis 預(yù)計(jì),AI 未來(lái)的發(fā)展速度,將超過(guò)領(lǐng)先芯片制造業(yè)的發(fā)展節(jié)奏。

快速實(shí)現(xiàn)最新能力意味著可以保持定價(jià)權(quán)(如 ChatGPT Pro),而能力落后則意味著更低的定價(jià),主要收益將流向提供 token 服務(wù)的基礎(chǔ)設(shè)施提供商。

當(dāng)前正處于技術(shù)快速迭代的周期,我們將會(huì)看到產(chǎn)品以前所未有的速度更新?lián)Q代。

只要科技公司能夠通過(guò) scaling 能力來(lái)開發(fā)出新功能,并在這些功能基礎(chǔ)上創(chuàng)造價(jià)值,就應(yīng)該擁有定價(jià)權(quán)。

否則,開源模型市場(chǎng)將在下一代技術(shù)中迅速商品化。

在這種背景下,高級(jí)分析師認(rèn)為,市場(chǎng)存在一個(gè)「根本性的誤解」。

芯片制造業(yè)是目前資本最密集的行業(yè),雖然全球沒(méi)有任何行業(yè)在研發(fā)投入上超過(guò)半導(dǎo)體行業(yè),但這個(gè)最接近的現(xiàn)實(shí)類比實(shí)際上表明 —— 模型公司發(fā)展態(tài)勢(shì)越快,對(duì)高性能芯片的需求也越大。

將 AI token 與「杰文斯悖論」(技術(shù)進(jìn)步提高效率反而增加資源消耗)進(jìn)行比較時(shí),我們可以發(fā)現(xiàn)深刻的歷史相似性。

最初,業(yè)界并不確定是否能持續(xù)縮小晶體管尺寸,但當(dāng)這一可能性得到證實(shí)后,整個(gè)行業(yè)都致力于將 CMOS 工藝微縮到極限,并在此基礎(chǔ)上構(gòu)建有意義的功能。

目前,我們正處于整合多個(gè) CoT 模型和能力的早期階段。

我們正在像早期縮小晶體管一樣 scaling 模型規(guī)模,盡管這在技術(shù)進(jìn)步方面可能會(huì)經(jīng)歷一段異常忙碌的時(shí)期,但這種發(fā)展趨勢(shì)對(duì)英偉達(dá)來(lái)說(shuō)無(wú)疑是利好消息。

免費(fèi),還能維持多久?

事實(shí)上,市場(chǎng)一直在尋找一個(gè)突破點(diǎn),而這就成為了他們的選擇。

如果 DeepSeek 愿意接受零利潤(rùn)率甚至負(fù)利潤(rùn)率運(yùn)營(yíng),他們確實(shí)可以維持如此低的價(jià)格水平。

但顯然,提供前沿 token 服務(wù)的價(jià)格彈性閾值要高得多。考慮到 DeepSeek 正在籌備新一輪融資,這種策略對(duì)他們來(lái)說(shuō)是有其戰(zhàn)略意義的。

DeepSeek 剛剛在推理能力這個(gè)關(guān)鍵突破點(diǎn)上,打破了 OpenAI 的高利潤(rùn)率格局。

但這種領(lǐng)先優(yōu)勢(shì)能持續(xù)多久?

SemiAnalysis 對(duì)此持懷疑態(tài)度 —— 這更像是一個(gè)開源實(shí)驗(yàn)室展示了它能夠達(dá)到閉源實(shí)驗(yàn)室的能力水平。

高級(jí)分析師確實(shí)認(rèn)為,一個(gè)更強(qiáng)大的開源實(shí)驗(yàn)室(而 DeepSeek 現(xiàn)在無(wú)疑是其中表現(xiàn)最好的)對(duì)新興云服務(wù)提供商(Neoclouds)和各類服務(wù)提供商來(lái)說(shuō)是重大利好。

無(wú)論采用開源還是閉源模式,計(jì)算資源的集中度仍然至關(guān)重要。

但如果上層服務(wù)提供商選擇免費(fèi)提供其產(chǎn)品,那么提升計(jì)算資源的商業(yè)價(jià)值就成為可能。

這意味著更多的資金將流向計(jì)算資源提供方而非閉源模型提供商,換句話說(shuō),支出將更多地流向硬件設(shè)施而非其他環(huán)節(jié)。

與此同時(shí),軟件企業(yè)也將從這一趨勢(shì)中獲得巨大收益。

參考資料:

  • https://semianalysis.com/2025/01/31/deepseek-debates/

本文來(lái)自微信公眾號(hào):新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepSeek

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知