設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek 開源進(jìn)度 2/5:首個用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 DeepEP

2025/2/25 10:48:54 來源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 浪花慶山粉、刺客 的線索投遞!

IT之家 2 月 25 日消息,DeepSeek 的“開源周”活動今日已經(jīng)來到第二天,今天發(fā)布的是首個開源的用于 MoE 模型訓(xùn)練和推理的 EP 通信庫 ——DeepEP。

IT之家附開源地址:https://github.com/deepseek-ai/DeepEP

官方表示其具備如下特征:

  • 高效優(yōu)化的全到全通信方式

  • 支持節(jié)點(diǎn)內(nèi)外通信,兼容 NVLink 和 RDMA 技術(shù)

  • 提供高吞吐量的內(nèi)核,提升訓(xùn)練和推理前期填充效率

  • 提供低延遲內(nèi)核,優(yōu)化推理解碼速度

  • 完全支持 FP8 數(shù)據(jù)格式調(diào)度

  • 提供靈活的 GPU 資源管理,支持計算與通信的重疊執(zhí)行

詳細(xì)介紹的大意如下:

DeepEP 是一款專為混合專家(MoE)和專家并行(EP)設(shè)計的通信庫,提供了高吞吐量和低延遲的 all-to-all GPU 內(nèi)核,常用于 MoE 派發(fā)和合并操作。該庫還支持低精度計算,包括 FP8。

為了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對不對稱帶寬轉(zhuǎn)發(fā)優(yōu)化的內(nèi)核,比如將數(shù)據(jù)從 NVLink 域轉(zhuǎn)發(fā)到 RDMA 域。這些優(yōu)化的內(nèi)核能夠提供高吞吐量,適合用于訓(xùn)練和推理的預(yù)填充任務(wù),同時支持 SM(流式多處理器)數(shù)量控制。

對于延遲敏感型的推理解碼任務(wù),DeepEP 提供了一套低延遲內(nèi)核,采用純 RDMA 技術(shù)以最大程度減少延遲。此外,該庫還采用了一種基于 Hook 的通信與計算重疊方法,不會占用任何 SM 資源。

需求:

  • Hopper GPUs (may support more architectures or devices later)

  • Python 3.8 及以上版本

  • CUDA 12.3 及以上版本

  • PyTorch 2.1 及以上版本

  • 使用 NVLink 進(jìn)行節(jié)點(diǎn)間通信

  • 基于 RDMA 網(wǎng)絡(luò)的節(jié)點(diǎn)間通信

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepSeek

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知