DeepSeek 開源進(jìn)度 3/5：深度學(xué)習(xí)利器 DeepGEMM

2025/2/26 9:22:24 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友刺客、昵稱已起煩、HH_KK 的線索投遞！

IT之家 2 月 26 日消息，DeepSeek“開源周”的進(jìn)度今日來到 3/5：支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫，用以驅(qū)動(dòng) V3 / R1 模型的訓(xùn)練和推理。

在 Hopper GPU 上可實(shí)現(xiàn)高達(dá) 1350+ FP8 TFLOPS 性能
無復(fù)雜依賴，代碼簡潔如教程
完全采用即時(shí)編譯技術(shù)（Just-In-Time）
核心代碼僅約 300 行 —— 在大多數(shù)矩陣尺寸下超越了專家優(yōu)化的內(nèi)核
支持稠密布局和兩種 MoE 布局

IT之家附開源鏈接：https://github.com/deepseek-ai/DeepGEMM

官方介紹大意如下：

DeepGEMM 是一個(gè)專為高效且清晰的 FP8 通用矩陣乘法（GEMM）設(shè)計(jì)的庫，具備 DeepSeek-V3 所提出的精細(xì)化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。
該庫基于 CUDA 編寫，在安裝時(shí)無需預(yù)編譯，而是通過輕量級(jí)的即時(shí)編譯（JIT）模塊，在運(yùn)行時(shí)動(dòng)態(tài)編譯所有內(nèi)核。
目前，DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應(yīng)對 FP8 張量核心累加不精確的問題，它使用了 CUDA 核心的兩級(jí)累加（提升）方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念，但并未過度依賴它們的模板或代數(shù)結(jié)構(gòu)。
DeepGEMM 的設(shè)計(jì)簡潔，核心內(nèi)核函數(shù)只有大約 300 行代碼，方便學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)。
盡管采用輕量設(shè)計(jì)，DeepGEMM 在多種矩陣形狀下的性能表現(xiàn)與專家優(yōu)化的庫相當(dāng)，甚至更好。
我們在 H800 上，使用 NVCC 12.8 測試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀（包括預(yù)填充和解碼，但不涉及張量并行）。所有加速指標(biāo)都是相對于我們內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實(shí)現(xiàn)計(jì)算的。
DeepGEMM 在某些矩陣形狀下的表現(xiàn)不盡如人意，歡迎有興趣的朋友提交優(yōu)化 PR。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek 開源進(jìn)度 3/5：深度學(xué)習(xí)利器 DeepGEMM

相關(guān)文章