英偉達(dá)剛剛從 DeepSeek-R1 引發(fā)的 4 萬億元暴跌中緩過勁來,又面臨新的壓力?
硬件媒體 Tom's Hardware 帶來開年最新熱議:DeepSeek 甚至繞過了 CUDA,使用更底層的編程語言做優(yōu)化。
這一次是 DeepSeek-V3 論文中的更多細(xì)節(jié),被人挖掘出來。
來自 Mirae Asset Securities Research(韓國未來資產(chǎn)證券)的分析稱,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以總結(jié)為“他們從頭開始重建了一切”。
在使用英偉達(dá)的 H800 GPU 訓(xùn)練 DeepSeek-V3 時(shí),他們針對(duì)自己的需求把 132 個(gè)流式多處理器(SMs)中的 20 個(gè)修改成負(fù)責(zé)服務(wù)器間的通信,而不是計(jì)算任務(wù)。
變相繞過了硬件對(duì)通信速度的限制。
這種操作是用英偉達(dá)的 PTX(Parallel Thread Execution)語言實(shí)現(xiàn)的,而不是 CUDA。
PTX 在接近匯編語言的層級(jí)運(yùn)行,允許進(jìn)行細(xì)粒度的優(yōu)化,如寄存器分配和 Thread / Warp 級(jí)別的調(diào)整。
這種編程非常復(fù)雜且難以維護(hù),所以行業(yè)通用的做法是使用 CUDA 這樣的高級(jí)編程語言。
換句話說,他們把優(yōu)化做到了極致。
有網(wǎng)友表示,如果有一群人嫌 CUDA 太慢而使用 PTX,那一定是前量化交易員。
一位亞馬遜工程師提出靈魂質(zhì)問:CUDA 是否還是護(hù)城河?這種頂尖實(shí)驗(yàn)室可以有效利用任何 GPU。
甚至有網(wǎng)友開始暢想,如果“新源神”DeepSeek 開源了一個(gè) CUDA 替代方案……
那么事情是否真會(huì)如此?
DeepSeek 真的繞過了 CUDA?
首先要明確的是,PTX 仍然是英偉達(dá) GPU 架構(gòu)中的技術(shù),它是 CUDA 編程模型中的中間表示,用于連接 CUDA 高級(jí)語言代碼和 GPU 底層硬件指令。
PTX 類似匯編語言,代碼大概長這樣:
在實(shí)際編譯流程中,CUDA 代碼首先被編譯為 PTX 代碼,PTX 代碼再被編譯為目標(biāo) GPU 架構(gòu)的機(jī)器碼(SASS,Streaming ASSembler)。
CUDA 起到了提供高級(jí)編程接口和工具鏈的作用,可以簡化開發(fā)者的工作。而 PTX 作為中間層,充當(dāng)高級(jí)語言和底層硬件之間的橋梁。
另外,這種兩步編譯流程也使得 CUDA 程序具有跨架構(gòu)的兼容性和可移植性。
反過來說,像 DeepSeek 這種直接編寫 PTX 代碼的做法,首先不僅非常復(fù)雜,也很難移植到不同型號(hào)的 GPU。
有從業(yè)者表示,針對(duì) H100 優(yōu)化的代碼遷移到其他型號(hào)上可能效果打折扣,也可能根本不工作了。
所以說,DeepSeek 做了 PTX 級(jí)別的優(yōu)化不意味著完全脫離了 CUDA 生態(tài),但確實(shí)代表他們有優(yōu)化其他 GPU 的能力。
事實(shí)上,我們也能看到 DeepSeek 已經(jīng)與 AMD、華為等團(tuán)隊(duì)緊密合作,第一時(shí)間提供了對(duì)其他硬件生態(tài)的支持。
One More Thing
還有人提出,如此一來,讓 AI 擅長編寫匯編語言是 AI 自我改進(jìn)的一個(gè)方向。
我們不知道 DeepSeek 內(nèi)部是否使用 AI 輔助編寫了 PTX 代碼 —— 但是確實(shí)剛剛見證 DeepSeek-R1 編寫的代碼顯著提升大模型推理框架的運(yùn)行速度。
Llama.cpp 項(xiàng)目中的一個(gè)新 PR 請求,使用 SIMD 指令(允許一條指令同時(shí)處理多個(gè)數(shù)據(jù))顯著提升 WebAssembly 在特定點(diǎn)積函數(shù)上的運(yùn)行速度,提交者表示:
這個(gè) PR 中的 99% 的代碼都是由 DeepSeek-R1 編寫的。我唯一做的就是開發(fā)測試和編寫提示(經(jīng)過一些嘗試和錯(cuò)誤)。
是的,這個(gè) PR 旨在證明大模型現(xiàn)在能夠編寫良好的底層代碼,甚至能夠優(yōu)化自己的代碼。
llama.cpp 項(xiàng)目的創(chuàng)始人檢查了這段代碼后表示“比預(yù)期的更爆炸”。
參考鏈接:
[1]https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
[2]https://x.com/bookwormengr/status/1883355712191123666
[3]https://tinkerd.net/blog/machine-learning/cuda-basics/
[4]https://www.amd.com/en/developer/resources/technical-articles/amd-instinct-gpus-power-deepseek-v3-revolutionizing-ai-development-with-sglang.html
[5]https://x.com/ggerganov/status/1883888097185927311
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。