騰訊發(fā)布新一代超強算力集群：面向大模型訓(xùn)練，性能提升 3 倍

2023/4/14 12:26:38 來源：IT之家作者：汪淼責(zé)編：汪淼

評論：

感謝IT之家網(wǎng)友 HH_KK、肖戰(zhàn)割割的線索投遞！

IT之家 4 月 14 日消息，IT之家從騰訊官方獲悉，騰訊云發(fā)布了新一代 HCC 高性能計算集群，采用最新一代星星海自研服務(wù)器，搭載英偉達 H800 Tensor Core GPU。

騰訊官方稱，該集群基于自研網(wǎng)絡(luò)、存儲架構(gòu)，帶來 3.2T 超高互聯(lián)帶寬、TB 級吞吐能力和千萬級 IOPS。實測結(jié)果顯示，新一代集群算力性能較前代提升 3 倍。

去年 10 月，騰訊完成首個萬億參數(shù)的 AI 大模型 —— 混元 NLP 大模型訓(xùn)練。在同等數(shù)據(jù)集下，將訓(xùn)練時間由 50 天縮短到 11 天。如果基于新一代集群，訓(xùn)練時間將進一步縮短至 4 天。

計算層面，服務(wù)器單機性能是集群算力的基礎(chǔ)，騰訊云新一代集群的單 GPU 卡在不同精度下，支持輸出最高 1979 TFlops 的算力。

針對大模型場景，星星海自研服務(wù)器采用 6U 超高密度設(shè)計，相較行業(yè)可支持的上架密度提高 30%；利用并行計算理念，通過 CPU 和 GPU 節(jié)點的一體化設(shè)計，將單點算力性能提升至更高。

網(wǎng)絡(luò)層面，計算節(jié)點間，存在著海量的數(shù)據(jù)交互需求。隨著集群規(guī)模擴大，通信性能會直接影響訓(xùn)練效率，需要實現(xiàn)網(wǎng)絡(luò)和計算節(jié)點的最大協(xié)同。

騰訊自研的星脈高性能計算網(wǎng)絡(luò)，號稱具備業(yè)界最高的 3.2T RDMA 通信帶寬。實測結(jié)果顯示，搭載同等數(shù)量的 GPU，3.2T 星脈網(wǎng)絡(luò)相較 1.6T 網(wǎng)絡(luò)，集群整體算力提升 20%。

同時，騰訊自研的高性能集合通信庫 TCCL，融入定制設(shè)計的解決方案。相對業(yè)界開源集合通信庫，為大模型訓(xùn)練優(yōu)化 40% 負載性能，消除多個網(wǎng)絡(luò)原因?qū)е碌挠?xùn)練中斷問題。

存儲層面，大模型訓(xùn)練中，大量計算節(jié)點會同時讀取一批數(shù)據(jù)集，需要盡可能縮短數(shù)據(jù)加載時長，避免計算節(jié)點產(chǎn)生等待。

騰訊云自研的存儲架構(gòu)，具備 TB 級吞吐能力和千萬級 IOPS，支持不同場景下對存儲的需求。COS+GooseFS 對象存儲方案和 CFS Turbo 高性能文件存儲方案，充分滿足大模型場景下高性能、大吞吐和海量存儲要求。

此外，新一代集群集成了騰訊云自研的 TACO 訓(xùn)練加速引擎，對網(wǎng)絡(luò)協(xié)議、通信策略、AI 框架、模型編譯進行大量系統(tǒng)級優(yōu)化，大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本。

騰訊混元大模型背后的訓(xùn)練框架 AngelPTM，也已通過騰訊云 TACO 提供服務(wù)，幫助企業(yè)加速大模型落地。

通過騰訊云 TI 平臺的大模型能力和工具箱，企業(yè)可結(jié)合產(chǎn)業(yè)場景數(shù)據(jù)進行精調(diào)訓(xùn)練，提升生產(chǎn)效率、快速創(chuàng)建和部署 AI 應(yīng)用。

依托分布式云原生的治理能力，騰訊云智算平臺提供 16 EFLOPS 的浮點算力。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章