IT之家 8 月 19 日消息,摩爾線程“夸娥智算集群 KUAE” 1.2 版本正式發(fā)布。該版本對(duì)軟硬件層面的綜合性進(jìn)行優(yōu)化,支持 64K 長(zhǎng)文本、新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
IT之家整理此次更新內(nèi)容如下:
MFU 提升 10%,最高可達(dá) 55%
新版本使用千卡集群訓(xùn)練千億模型,MFU 提升 10%。
稠密模型集群訓(xùn)練 MFU 最高達(dá)到 55%。
Flash Attention2 優(yōu)化
通過(guò)集成最新的 MUSA SDK 平臺(tái)與優(yōu)化后的 Flash Attention2 技術(shù),結(jié)合新版 Torch MUSA 和算子融合,提升了大模型訓(xùn)練的效率與資源利用率,縮短訓(xùn)練周期并降低了整體成本。
64K 長(zhǎng)文本支持
新版本增強(qiáng)了對(duì)長(zhǎng)文本大模型訓(xùn)練的支持,優(yōu)化處理長(zhǎng)文本理解和生成任務(wù)的能力,能夠更好地應(yīng)對(duì)文檔摘要、文章寫作等復(fù)雜語(yǔ)言處理任務(wù)。
支持混合專家模型 MoE
MCCL 通信庫(kù)完成 All2All 優(yōu)化,針對(duì) muDNN 算子在不同形狀下的矩陣運(yùn)算進(jìn)行優(yōu)化,以更好地支持 MoE(Mixture of Experts)大模型的訓(xùn)練。
斷點(diǎn)續(xù)訓(xùn)
進(jìn)一步提升大模型訓(xùn)練的 Checkpoint 讀寫性能,寫入時(shí)間小于 2 秒,提高訓(xùn)練效率。
優(yōu)化 DeepSpeed
實(shí)現(xiàn)了基于摩爾線程 GPU 集群的 DeepSpeed 與 Ulysses 的適配和性能優(yōu)化,強(qiáng)化長(zhǎng)文本訓(xùn)練支持。
適配國(guó)內(nèi)外多款大模型,在 Hugging Face 上支持訓(xùn)練和微調(diào)主要開(kāi)源大模型。
穩(wěn)定性提升
千卡集群軟硬件進(jìn)一步成熟,實(shí)現(xiàn)連續(xù)無(wú)故障訓(xùn)練 15 天。
新版本引入了 KUAE Aegis 可靠性功能,加強(qiáng)對(duì) GPU、顯存、集合通信等方面的監(jiān)控、自動(dòng)診斷與故障恢復(fù)能力。
可視化 / 可觀測(cè)
引入 PerfSight 性能監(jiān)控系統(tǒng),可實(shí)時(shí)顯示模型訓(xùn)練過(guò)程中的資源消耗與性能分析數(shù)據(jù)。
內(nèi)置模型庫(kù)中新增大模型
KUAE 內(nèi)置模型庫(kù) Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
IT之家此前報(bào)道,摩爾線程 AI 旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案從當(dāng)前的千卡級(jí)別擴(kuò)展至萬(wàn)卡規(guī)模,具備萬(wàn) P 級(jí)浮點(diǎn)運(yùn)算能力。摩爾線程將開(kāi)展三個(gè)萬(wàn)卡集群項(xiàng)目,分別為青海零碳產(chǎn)業(yè)園萬(wàn)卡集群項(xiàng)目、青海高原夸娥萬(wàn)卡集群項(xiàng)目、廣西東盟萬(wàn)卡集群項(xiàng)目。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。