對話中國工程院院士鄭緯民：DeepSeek，究竟厲害在哪里

2025/1/27 12:13:22 來源：新浪科技作者：周文猛 責編：汪淼

評論：

1 月 27 日，DeepSeek 應(yīng)用登頂蘋果美國地區(qū)應(yīng)用商店免費 App 下載排行榜，在美區(qū)下載榜上超越了 ChatGPT。同日，蘋果中國區(qū)應(yīng)用商店免費榜顯示，DeepSeek 成為中國區(qū)第一。

DeepSeek 究竟厲害在哪里？

今日，中國工程院院士、清華大學計算機系教授鄭緯民及多位 AI 圈人士在與新浪科技溝通中，指出了 DeepSeek 其成功出圈的關(guān)鍵所在。

目前，業(yè)界對于 DeepSeek 的喜愛與贊美，主要集中在三個方面。

第一，在技術(shù)層面，DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 兩款模型，分別實現(xiàn)了比肩 OpenAI 4o 和 o1 模型的能力。
第二，DeepSeek 研發(fā)的這兩款模型成本更低，僅為 OpenAI 4o 和 o1 模型的十分之一左右。
第三，DeepSeek 把這一兩大模型的技術(shù)都開源了，這讓更多的 AI 團隊，能夠基于最先進同時成本最低的模型，開發(fā)更多的 AI 原生應(yīng)用。

那么，DeepSeek 是如何實現(xiàn)模型成本的降低的呢？

鄭緯民指出，“DeepSeek 自研的 MLA 架構(gòu)和 DeepSeek MOE 架構(gòu)，為其自身的模型訓(xùn)練成本下降，起到了關(guān)鍵作用?！彼赋?，“MLA 主要通過改造注意力算子壓縮了 KV Cache 大小，實現(xiàn)了在同樣容量下可以存儲更多的 KV Cache，該架構(gòu)和 DeepSeek-V3 模型中 FFN 層的改造相配合，實現(xiàn)了一個非常大的稀疏 MoE 層，這成為 DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因?！?/p>

就技術(shù)層面而言，KV Cache 是一種優(yōu)化技術(shù)，常被用于存儲人工智能模型運行時產(chǎn)生的 token 的鍵值對（即 key- value 數(shù)值），以提高計算效率。具體而言，在模型運算過程中，KV cache 會在模型運算過程中充當一個內(nèi)存庫的角色，以存儲模型之前處理過的 token 鍵值，通過模型運算計算出注意力分數(shù)，有效控制被存儲 token 的輸入輸出，通過“以存換算”避免了多數(shù)大模型運算每次都是從第一個 token 開始運算的重復(fù)計算，提升了算力使用效率。

此外，據(jù)鄭緯民透露，DeepSeek 還解決了“非常大同時非常稀疏的 MoE 模型”使用的性能難題，而這也成了“DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因”。

目前，通過 MoE 混合專家模型提升 AI 大模型的專業(yè)認知能力正成為業(yè)界公認的有效手段，而且一個大模型的專家模型數(shù)量越多，模型就越稀疏，效率也越高，但專家模型變多可能導(dǎo)致最終生成的結(jié)果不太準確。

據(jù)鄭緯民介紹，“DeepSeek 比較厲害的是訓(xùn)練 MoE 的能力，成為公開 MoE 模型訓(xùn)練中第一個能訓(xùn)練成功這么大 MoE 的企業(yè)?！毙吕丝萍剂私獾剑瑸楸ＷC大規(guī)模 MoE 專家模型的均衡運行，DeepSeek 使用了先進的、不需要輔助損失函數(shù)的、專家加載均衡技術(shù)，保證每個 token 下，少量專家網(wǎng)絡(luò)參數(shù)被真正激活的情況下，不同的專家網(wǎng)絡(luò)能夠以更均衡的頻率被激活，防止專家網(wǎng)絡(luò)激活扎堆。

此外，DeepSeek 還充分利用專家網(wǎng)絡(luò)被稀疏激活的設(shè)計，限制了每個 token 被發(fā)送往 GPU 集群節(jié)點（node）的數(shù)量，這使得 GPU 之間通信開銷穩(wěn)定在較低的水位。

原標題：《對話中國工程院院士：DeepSeek，究竟厲害在哪里？》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

對話中國工程院院士鄭緯民：DeepSeek，究竟厲害在哪里

相關(guān)文章

對話中國工程院院士鄭緯民：DeepSeek，究竟厲害在哪里