IT之家 2 月 11 日消息,華為技術(shù)有限公司今日宣布,MindSpeed 支持 DeepSeek V3 預(yù)訓(xùn)練、微調(diào),同時昇騰還適配支持 DeepSeek-R1 復(fù)現(xiàn)項目 Open R1。
據(jù)介紹,MindSpeed 現(xiàn)已支持 DeepSeek V3 模型預(yù)訓(xùn)練與微調(diào)。所使用的并行配置與模型參數(shù)如下:
DeepSeek 團隊通過知識蒸餾,實現(xiàn)了較小的模型也能具備較強的推理能力。華為稱已基于昇騰完成蒸餾流程驗證,并表示經(jīng)過蒸餾后的 Qwen 模型在對應(yīng)領(lǐng)域上的評分獲得顯著提升,開發(fā)者可基于此參考,完成自定義蒸餾模型訓(xùn)練。
另外,華為昇騰還適配完成 Open R1 項目的重要步驟:打通 Open R1-Zero 的 GRPO 流程,同時支持通過 vLLM 等生態(tài)庫實現(xiàn)訓(xùn)練過程中的數(shù)據(jù)生成。
據(jù)介紹,Open R1 項目是 Hugging Face 官方開源的對 DeepSeek-R1 模型流程進行完全開放式復(fù)現(xiàn)的項目,是當(dāng)前主流復(fù)現(xiàn)項目之一,當(dāng)前已有 18K+ star 數(shù),其目標(biāo)是構(gòu)建 DeekSeek-R1 訓(xùn)練流程的缺失部分。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。