Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU，訓練千億參數(shù)級 AI 模型

2024/8/7 7:35:32 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 8 月 7 日消息，Meta 公司于 8 月 5 日發(fā)布博文，表示為了滿足大規(guī)模分布式 AI 訓練對網(wǎng)絡(luò)的需求，構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。

RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2，是一種節(jié)點間通信傳輸方式，用于大部分人工智能容量。

Meta 公司已成功擴展了 RoCE 網(wǎng)絡(luò)，從原型發(fā)展到部署了眾多集群，每個集群可容納數(shù)千個 GPU。

這些 RoCE 集群支持廣泛的生產(chǎn)型分布式 GPU 訓練工作，包括排名、內(nèi)容推薦、內(nèi)容理解、自然語言處理和 GenAI 模型訓練等工作負載。

Meta 公司為分布式 AI 訓練專門建立了一個專用的后端網(wǎng)絡(luò)，能夠獨立于數(shù)據(jù)中心網(wǎng)絡(luò)的其他部分進行發(fā)展、運行和擴展。

訓練集群依賴于兩個獨立的網(wǎng)絡(luò)：前端（FE）網(wǎng)絡(luò)用于數(shù)據(jù)攝取、檢查點和日志記錄等任務，后端（BE）網(wǎng)絡(luò)用于訓練，如下圖所示:

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU，訓練千億參數(shù)級 AI 模型

訓練機架連接到數(shù)據(jù)中心網(wǎng)絡(luò)的 FE 和 BE。FE 的網(wǎng)絡(luò)層次包括機架交換機 (RSW)、結(jié)構(gòu)交換機（FSW）等，其中包含存儲倉庫，為 GPU 提供訓練工作負載所需的輸入數(shù)據(jù)。

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU，訓練千億參數(shù)級 AI 模型

后端結(jié)構(gòu)是一個專門的結(jié)構(gòu)，它以無阻塞的架構(gòu)連接所有 RDMA 網(wǎng)卡，無論它們的物理位置如何，在集群中的任意兩個 GPU 之間提供高帶寬、低延遲和無損傳輸。

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU，訓練千億參數(shù)級 AI 模型

為了應對 LLM 模型訓練對 GPU 規(guī)模的需求，Meta 設(shè)計了聚合訓練交換機（ATSW）層，將多個 AI 區(qū)域互連起來。此外，Meta 還優(yōu)化路由、擁塞控制等方面，以提升網(wǎng)絡(luò)性能。

IT之家附上參考地址

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU，訓練千億參數(shù)級 AI 模型