1 月 27 日,DeepSeek 應(yīng)用登頂蘋果美國地區(qū)應(yīng)用商店免費 App 下載排行榜,在美區(qū)下載榜上超越了 ChatGPT。同日,蘋果中國區(qū)應(yīng)用商店免費榜顯示,DeepSeek 成為中國區(qū)第一。
DeepSeek 究竟厲害在哪里?
今日,中國工程院院士、清華大學計算機系教授鄭緯民及多位 AI 圈人士在與新浪科技溝通中,指出了 DeepSeek 其成功出圈的關(guān)鍵所在。
目前,業(yè)界對于 DeepSeek 的喜愛與贊美,主要集中在三個方面。
第一,在技術(shù)層面,DeepSeek 背后的 DeepSeek-V3 及公司新近推出的 DeepSeek-R1 兩款模型,分別實現(xiàn)了比肩 OpenAI 4o 和 o1 模型的能力。
第二,DeepSeek 研發(fā)的這兩款模型成本更低,僅為 OpenAI 4o 和 o1 模型的十分之一左右。
第三,DeepSeek 把這一兩大模型的技術(shù)都開源了,這讓更多的 AI 團隊,能夠基于最先進同時成本最低的模型,開發(fā)更多的 AI 原生應(yīng)用。
那么,DeepSeek 是如何實現(xiàn)模型成本的降低的呢?
鄭緯民指出,“DeepSeek 自研的 MLA 架構(gòu)和 DeepSeek MOE 架構(gòu),為其自身的模型訓(xùn)練成本下降,起到了關(guān)鍵作用?!彼赋?,“MLA 主要通過改造注意力算子壓縮了 KV Cache 大小,實現(xiàn)了在同樣容量下可以存儲更多的 KV Cache,該架構(gòu)和 DeepSeek-V3 模型中 FFN 層的改造相配合,實現(xiàn)了一個非常大的稀疏 MoE 層,這成為 DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因?!?/p>
就技術(shù)層面而言,KV Cache 是一種優(yōu)化技術(shù),常被用于存儲人工智能模型運行時產(chǎn)生的 token 的鍵值對(即 key- value 數(shù)值),以提高計算效率。具體而言,在模型運算過程中,KV cache 會在模型運算過程中充當一個內(nèi)存庫的角色,以存儲模型之前處理過的 token 鍵值,通過模型運算計算出注意力分數(shù),有效控制被存儲 token 的輸入輸出,通過“以存換算”避免了多數(shù)大模型運算每次都是從第一個 token 開始運算的重復(fù)計算,提升了算力使用效率。
此外,據(jù)鄭緯民透露,DeepSeek 還解決了“非常大同時非常稀疏的 MoE 模型”使用的性能難題,而這也成了“DeepSeek 訓(xùn)練成本低最關(guān)鍵的原因”。
目前,通過 MoE 混合專家模型提升 AI 大模型的專業(yè)認知能力正成為業(yè)界公認的有效手段,而且一個大模型的專家模型數(shù)量越多,模型就越稀疏,效率也越高,但專家模型變多可能導(dǎo)致最終生成的結(jié)果不太準確。
據(jù)鄭緯民介紹,“DeepSeek 比較厲害的是訓(xùn)練 MoE 的能力,成為公開 MoE 模型訓(xùn)練中第一個能訓(xùn)練成功這么大 MoE 的企業(yè)?!毙吕丝萍剂私獾剑瑸楸WC大規(guī)模 MoE 專家模型的均衡運行,DeepSeek 使用了先進的、不需要輔助損失函數(shù)的、專家加載均衡技術(shù),保證每個 token 下,少量專家網(wǎng)絡(luò)參數(shù)被真正激活的情況下,不同的專家網(wǎng)絡(luò)能夠以更均衡的頻率被激活,防止專家網(wǎng)絡(luò)激活扎堆。
此外,DeepSeek 還充分利用專家網(wǎng)絡(luò)被稀疏激活的設(shè)計,限制了每個 token 被發(fā)送往 GPU 集群節(jié)點(node)的數(shù)量,這使得 GPU 之間通信開銷穩(wěn)定在較低的水位。
原標題:《對話中國工程院院士:DeepSeek,究竟厲害在哪里?》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。