首頁 > 智能時代>人工智能

DeepSeek 開源進(jìn)度 2/5：首個用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 DeepEP

2025/2/25 10:48:54 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友浪花慶山粉、刺客的線索投遞！

IT之家 2 月 25 日消息，DeepSeek 的“開源周”活動今日已經(jīng)來到第二天，今天發(fā)布的是首個開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 ——DeepEP。

IT之家附開源地址：https://github.com/deepseek-ai/DeepEP

DeepSeek 開源進(jìn)度 2/5：首個用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 DeepEP

官方表示其具備如下特征：

高效優(yōu)化的全到全通信方式
支持節(jié)點(diǎn)內(nèi)外通信，兼容 NVLink 和 RDMA 技術(shù)
提供高吞吐量的內(nèi)核，提升訓(xùn)練和推理前期填充效率
提供低延遲內(nèi)核，優(yōu)化推理解碼速度
完全支持 FP8 數(shù)據(jù)格式調(diào)度
提供靈活的 GPU 資源管理，支持計算與通信的重疊執(zhí)行

詳細(xì)介紹的大意如下：

DeepEP 是一款專為混合專家（MoE）和專家并行（EP）設(shè)計的通信庫，提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核，常用于 MoE 派發(fā)和合并操作。該庫還支持低精度計算，包括 FP8。
為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容，DeepEP 提供了一些針對不對稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核，比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量，適合用于訓(xùn)練和推理的預(yù)填充任務(wù)，同時支持 SM（流式多處理器）數(shù)量控制。
對于延遲敏感型的推理解碼任務(wù)，DeepEP 提供了一套低延遲內(nèi)核，采用純 RDMA 技術(shù)以最大程度減少延遲。此外，該庫還采用了一種基于 Hook 的通信與計算重疊方法，不會占用任何 SM 資源。

需求：

Hopper GPUs (may support more architectures or devices later)
Python 3.8 及以上版本
CUDA 12.3 及以上版本
PyTorch 2.1 及以上版本
使用 NVLink 進(jìn)行節(jié)點(diǎn)間通信
基于 RDMA 網(wǎng)絡(luò)的節(jié)點(diǎn)間通信

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek 開源進(jìn)度 2/5：首個用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 DeepEP

相關(guān)文章