設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

對話中國工程院院士鄭緯民:DeepSeek,究竟厲害在哪里

2025/1/27 12:13:22 來源:新浪科技 作者:周文猛 責(zé)編:汪淼

1 月 27 日,DeepSeek 應(yīng)用登頂蘋果美國地區(qū)應(yīng)用商店免費(fèi) App 下載排行榜,在美區(qū)下載榜上超越了 ChatGPT。同日,蘋果中國區(qū)應(yīng)用商店免費(fèi)榜顯示,DeepSeek 成為中國區(qū)第一。

DeepSeek 究竟厲害在哪里?

今日,中國工程院院士、清華大學(xué)計(jì)算機(jī)系教授鄭緯民及多位 AI 圈人士在與新浪科技溝通中,指出了 DeepSeek 其成功出圈的關(guān)鍵所在。

目前,業(yè)界對于 DeepSeek 的喜愛與贊美,主要集中在三個(gè)方面。

  • 第一,在技術(shù)層面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 兩款模型,分別實(shí)現(xiàn)了比肩 OpenAI 4o 和 o1 模型的能力。

  • 第二,DeepSeek 研發(fā)的這兩款模型成本更低,僅為 OpenAI 4o 和 o1 模型的十分之一左右。

  • 第三,DeepSeek 把這一兩大模型的技術(shù)都開源了,這讓更多的 AI 團(tuán)隊(duì),能夠基于最先進(jìn)同時(shí)成本最低的模型,開發(fā)更多的 AI 原生應(yīng)用。

那么,DeepSeek 是如何實(shí)現(xiàn)模型成本的降低的呢?

鄭緯民指出,“DeepSeek 自研的 MLA 架構(gòu)和 DeepSeek MOE 架構(gòu),為其自身的模型訓(xùn)練成本下降,起到了關(guān)鍵作用。”他指出,“MLA 主要通過改造注意力算子壓縮了 KV Cache 大小,實(shí)現(xiàn)了在同樣容量下可以存儲更多的 KV Cache,該架構(gòu)和 DeepSeek-V3 模型中 FFN 層的改造相配合,實(shí)現(xiàn)了一個(gè)非常大的稀疏 MoE 層,這成為 DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因?!?/p>

就技術(shù)層面而言,KV Cache 是一種優(yōu)化技術(shù),常被用于存儲人工智能模型運(yùn)行時(shí)產(chǎn)生的 token 的鍵值對(即 key- value 數(shù)值),以提高計(jì)算效率。具體而言,在模型運(yùn)算過程中,KV cache 會在模型運(yùn)算過程中充當(dāng)一個(gè)內(nèi)存庫的角色,以存儲模型之前處理過的 token 鍵值,通過模型運(yùn)算計(jì)算出注意力分?jǐn)?shù),有效控制被存儲 token 的輸入輸出,通過“以存換算”避免了多數(shù)大模型運(yùn)算每次都是從第一個(gè) token 開始運(yùn)算的重復(fù)計(jì)算,提升了算力使用效率。

此外,據(jù)鄭緯民透露,DeepSeek 還解決了“非常大同時(shí)非常稀疏的 MoE 模型”使用的性能難題,而這也成了“DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因”。

目前,通過 MoE 混合專家模型提升 AI 大模型的專業(yè)認(rèn)知能力正成為業(yè)界公認(rèn)的有效手段,而且一個(gè)大模型的專家模型數(shù)量越多,模型就越稀疏,效率也越高,但專家模型變多可能導(dǎo)致最終生成的結(jié)果不太準(zhǔn)確。

據(jù)鄭緯民介紹,“DeepSeek 比較厲害的是訓(xùn)練 MoE 的能力,成為公開 MoE 模型訓(xùn)練中第一個(gè)能訓(xùn)練成功這么大 MoE 的企業(yè)。”新浪科技了解到,為保證大規(guī)模 MoE 專家模型的均衡運(yùn)行,DeepSeek 使用了先進(jìn)的、不需要輔助損失函數(shù)的、專家加載均衡技術(shù),保證每個(gè) token 下,少量專家網(wǎng)絡(luò)參數(shù)被真正激活的情況下,不同的專家網(wǎng)絡(luò)能夠以更均衡的頻率被激活,防止專家網(wǎng)絡(luò)激活扎堆。

此外,DeepSeek 還充分利用專家網(wǎng)絡(luò)被稀疏激活的設(shè)計(jì),限制了每個(gè) token 被發(fā)送往 GPU 集群節(jié)點(diǎn)(node)的數(shù)量,這使得 GPU 之間通信開銷穩(wěn)定在較低的水位。

原標(biāo)題:《對話中國工程院院士:DeepSeek,究竟厲害在哪里?》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:中國工程院,DeepSeek,鄭緯民

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知