設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

小而強(qiáng),英偉達(dá)剪枝、蒸餾出 Llama-3.1-Minitron 4B AI 模型

2024/8/17 7:21:02 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 8 月 17 日消息,英偉達(dá)公司聯(lián)合 Meta 公司發(fā)布了最新的 Llama-3.1-Minitron 4B AI 模型,主要通過結(jié)構(gòu)化權(quán)重剪枝、知識提煉等尖端技術(shù),成功蒸餾(Distill)出 40 億參數(shù)的“小而強(qiáng)”模型。

圖源:英偉達(dá)

Llama-3.1-Minitron 4B 模型在 Llama-3.1-Minitron 8B 基礎(chǔ)上蒸餾而來,英偉達(dá)在深度和寬度方向上使用了結(jié)構(gòu)化剪枝技術(shù)。

IT之家注:剪枝是一種刪除網(wǎng)絡(luò)中不那么重要的層或神經(jīng)元的技術(shù),保留其性能的情況下,目的是減小模型的大小和復(fù)雜度。

英偉達(dá)通過從模型中刪除 16 層來進(jìn)行深度剪枝,并將其從 8B 模型縮減為 4B 模型,此外還部署另一種技術(shù),通過修剪嵌入維度和 MLP 中間層來進(jìn)行寬度剪枝。

除了剪枝,Nvidia 還采用了經(jīng)典蒸餾技術(shù)來提高 Llama-3.1-Minitron 4B 的效率。

知識蒸餾是一個過程,在這個過程中,一個較小的模型(即學(xué)生)會被訓(xùn)練成模仿一個更大、更復(fù)雜的模型(即教師)的行為。通過這種方式,較小模型中保留了原始模型的大部分預(yù)測能力,但速度更快,資源更節(jié)省。

英偉達(dá)將此與蒸餾技術(shù)和剪枝技術(shù)相結(jié)合,確保重新訓(xùn)練的 4B 模型性能優(yōu)異,并在更大的模型中得到很好的應(yīng)用。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達(dá),AIMeta

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知