設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

月之暗面 Kimi 開源 Moonlight:30 億 / 160 億參數(shù)混合專家模型

2025/2/24 8:53:18 來源:IT之家 作者:清源 責編:清源

IT之家 2 月 24 日消息,月之暗面 Kimi 昨日發(fā)布了“Muon 可擴展用于 LLM 訓練”的新技術(shù)報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數(shù)混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點運算次數(shù)(FLOPs)下實現(xiàn)了更好的性能,從而提升了帕累托效率邊界。

月之暗面稱,團隊發(fā)現(xiàn) Muon 優(yōu)化器可通過添加權(quán)重衰減、仔細調(diào)整每個參數(shù)的更新幅度等技術(shù)進行擴展,并具備如下亮點:

這些技術(shù)使得 Muon 能夠在大規(guī)模訓練中開箱即用,無需進行超參數(shù)調(diào)優(yōu)。擴展法則實驗表明,與計算最優(yōu)訓練的 AdamW 相比,Muon 實現(xiàn)了約 2 倍的計算效率。

本次論文所使用的模型為 Moonlight-16B-A3B,總參數(shù)量為 15.29B,激活參數(shù)為 2.24B,其使用 Muon 優(yōu)化器,在 5.7T Tokens 的訓練數(shù)據(jù)下獲得上述成績。

我們的模型不僅突破了當前的 Pareto 前沿,還在訓練所需的 FLOP 數(shù)大幅減少的情況下,達到了比以往模型更優(yōu)的性能。

我們開源了一個分布式版本的 Muon 實現(xiàn),它在內(nèi)存使用和通信效率上都進行了優(yōu)化。同時,我們也發(fā)布了預訓練模型、經(jīng)過指令調(diào)優(yōu)的模型以及中間訓練檢查點,旨在為未來的研究提供支持。

IT之家附有關(guān)鏈接如下:

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:月之暗面Kimi

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知