字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)開源MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練成本節(jié)省40%

2025/3/10 17:42:41 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評(píng)論：

感謝IT之家網(wǎng)友 HH_KK、某咸魚的小號(hào) 的線索投遞！

IT之家 3 月 10 日消息，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)官宣開源一項(xiàng)針對 MoE（混合專家模型）架構(gòu)的關(guān)鍵優(yōu)化技術(shù)，可將大模型訓(xùn)練效率提升 1.7 倍，成本節(jié)省 40%。據(jù)悉，該技術(shù)叫做 COMET，已實(shí)際應(yīng)用于字節(jié)的萬卡集群訓(xùn)練，累計(jì)幫助節(jié)省了數(shù)百萬 GPU 小時(shí)訓(xùn)練算力。

IT之家注意到，早前豆包團(tuán)隊(duì)發(fā)布了新一代稀疏架構(gòu) UltraMem，將模型推理成本砍掉 83%，此次，又開源了 COMET，向模型訓(xùn)練成本出手。

目前，COMET 核心代碼已開源，并計(jì)劃兼容 Triton 等編譯生態(tài)。

論文鏈接：https://arxiv.org/pdf/2502.19811

開源地址：https://github.com/bytedance/flux

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)開源MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練成本節(jié)省40%

相關(guān)文章

字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)開源MoE架構(gòu)優(yōu)化技術(shù)，訓(xùn)練成本節(jié)省40%