IT之家 3 月 24 日消息,據(jù)證券時(shí)報(bào)報(bào)道,近日,螞蟻集團(tuán) Ling 團(tuán)隊(duì)在預(yù)印版 Arxiv 平臺(tái)發(fā)表技術(shù)成果論文《每一個(gè) FLOP 都至關(guān)重要:無(wú)需高級(jí) GPU 即可擴(kuò)展 3000 億參數(shù)混合專家 LING 大模型》,宣布推出兩款不同規(guī)模的 MoE (混合專家)大語(yǔ)言模型 —— 百靈輕量版(Ling-Lite)與百靈增強(qiáng)版(Ling-Plus),并提出一系列創(chuàng)新方法,實(shí)現(xiàn)在低性能硬件上高效訓(xùn)練大模型,顯著降低成本。
據(jù)IT之家了解,百靈輕量版參數(shù)規(guī)模為 168 億(激活參數(shù) 27.5 億),增強(qiáng)版基座模型參數(shù)規(guī)模高達(dá) 2900 億(激活參數(shù) 288 億),性能均達(dá)行業(yè)領(lǐng)先水平。實(shí)驗(yàn)表明,其 3000 億參數(shù)的 MoE 大模型可在使用國(guó)產(chǎn) GPU 的低性能設(shè)備上完成高效訓(xùn)練,性能與完全使用英偉達(dá)芯片、同規(guī)模的稠密模型及 MoE 模型相當(dāng)。
當(dāng)前,MoE 模型訓(xùn)練通常依賴英偉達(dá) H100 / H800 等高性能 GPU,成本高昂且芯片短缺,限制了其在資源受限環(huán)境中的應(yīng)用。螞蟻集團(tuán) Ling 團(tuán)隊(duì)提出“不使用高級(jí) GPU”擴(kuò)展模型的目標(biāo),通過(guò)創(chuàng)新訓(xùn)練策略,突破資源與預(yù)算限制。具體策略包括:架構(gòu)與訓(xùn)練策略革新,采用動(dòng)態(tài)參數(shù)分配與混合精度調(diào)度技術(shù);升級(jí)訓(xùn)練異常處理機(jī)制,自適應(yīng)容錯(cuò)恢復(fù)系統(tǒng)縮短中斷響應(yīng)時(shí)間;優(yōu)化模型評(píng)估流程,自動(dòng)化評(píng)測(cè)框架壓縮驗(yàn)證周期超 50%;突破工具調(diào)用能力,基于知識(shí)圖譜的指令微調(diào)提升復(fù)雜任務(wù)執(zhí)行精度。
在五種不同硬件配置下,Ling 團(tuán)隊(duì)對(duì) 9 萬(wàn)億個(gè) token 進(jìn)行 Ling-Plus 預(yù)訓(xùn)練。結(jié)果顯示,使用高性能硬件配置訓(xùn)練 1 萬(wàn)億 token 的預(yù)訓(xùn)練成本約 635 萬(wàn)元人民幣,而采用螞蟻優(yōu)化方法后,低規(guī)格硬件訓(xùn)練成本降至 508 萬(wàn)元左右,節(jié)省近 20%,且性能與阿里通義 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相當(dāng)。
此前,DeepSeek 通過(guò)算法創(chuàng)新及工程優(yōu)化,使用英偉達(dá) H800 訓(xùn)練出性能頂尖的 V3 與 R1 模型,為降低成本、提高效率開辟新道路。螞蟻集團(tuán)的技術(shù)成果若得到驗(yàn)證推廣,將助力國(guó)產(chǎn)大模型尋找成本更低、效率更高的國(guó)產(chǎn)芯片或其他替代方案,進(jìn)一步降低對(duì)英偉達(dá)芯片的依賴。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。