設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達發(fā)布 Llama-3.1-Nemotron-51B AI 模型:創(chuàng)新神經(jīng)架構(gòu)搜索等技術(shù)讓單 H100 GPU 運行 4 倍以上負(fù)載

2024/9/25 13:40:33 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 9 月 25 日消息,英偉達 9 月 23 日發(fā)布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不過創(chuàng)新使用神經(jīng)架構(gòu)搜索(NAS)方法,建立了一個高度準(zhǔn)確和高效的模型。

Llama-3.1-Nemotron-51B 簡介

Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月發(fā)布的 Llama-3.1-70B 模型,共有 510 億參數(shù)。

該 AI 模型主要采用了神經(jīng)架構(gòu)搜索(NAS)技術(shù)微調(diào),平衡性能和效率,在高工作負(fù)荷下,只需要一片 H100 GPU 即可運行,大大降低了內(nèi)存消耗、計算復(fù)雜性以及與運行此類大型模型相關(guān)的成本。

英偉達認(rèn)為這種方式在保持了出色的精度前提下,顯著降低了內(nèi)存占用、內(nèi)存帶寬和 FLOPs,并證明可以在創(chuàng)建另一個更小、更快的變體來加以推廣。

Llama-3.1-Nemotron-51B 性能

相比較 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了幾乎相同的精度情況下,推理速度提高了 2.2 倍。


準(zhǔn)確率能效

MT BenchMMLUText generation (128/1024)Summarization/ RAG (2048/128)
Llama-3.1- Nemotron-51B- Instruct8.9980.2%6472653
Llama 3.1-70B- Instruct8.9381.66%2975339
Llama 3.1-70B- Instruct (single GPU)1274301
Llama 3-70B8.9480.17%2975339

效率和性能方面的突破

開發(fā) LLM 過程中面臨的主要挑戰(zhàn)之一是如何平衡精度與計算效率。許多大規(guī)模模型都能提供最先進的結(jié)果,但卻需要耗費大量的硬件和能源資源,這限制了它們的適用性。

英偉達的新模型在這兩個相互競爭的因素之間取得了微妙的平衡。

Llama-3.1-Nemotron-51B 實現(xiàn)了令人印象深刻的精度與效率權(quán)衡,減少了內(nèi)存帶寬,降低了每秒浮點運算次數(shù) (FLOP),并減少了總體內(nèi)存占用,同時不影響模型執(zhí)行推理、總結(jié)和語言生成等復(fù)雜任務(wù)的能力。

改進工作量管理,提高成本效益

Llama-3.1-Nemotron-51B 的一個突出特點是能夠在單個 GPU 上管理更大的工作負(fù)載。該型號允許開發(fā)人員在更具成本效益的環(huán)境中部署高性能 LLMs,在一個 H100 設(shè)備上運行以前需要多個 GPU 才能完成的任務(wù)。

Llama-3.1-Nemotron-51B 模型還減少了內(nèi)存占用,在推理過程中可以在單個 GPU 上運行 4 倍以上的工作負(fù)載,從而帶來了一系列新的機遇。

架構(gòu)優(yōu)化:成功的關(guān)鍵

Llama-3.1-Nemotron-51B 的成功主要歸功于一種新穎的結(jié)構(gòu)優(yōu)化方法。傳統(tǒng)上,LLMs 是使用相同的塊構(gòu)建的,這些塊在整個模型中重復(fù)出現(xiàn)。

這雖然簡化了構(gòu)建過程,但也帶來了效率低下的問題,特別是在內(nèi)存和計算成本方面。

英偉達通過采用 NAS 技術(shù)來優(yōu)化推理模型,從而解決了這些問題。該團隊采用了分塊蒸餾過程,即訓(xùn)練更小、更高效的學(xué)生模型(student model),以模仿更大的教師模型(teacher model)的功能。

通過完善這些學(xué)生模型并評估其性能,英偉達開發(fā)出了 Llama-3.1 版本,在大幅降低資源需求的同時,還能提供類似的準(zhǔn)確度。

Puzzle 算法和知識蒸餾

Llama-3.1-Nemotron-51B 有別于其他模型的另一個關(guān)鍵組件,就是 Puzzle 算法。

該算法對模型中的每個潛在區(qū)塊進行評分,并確定哪些配置能在速度和精度之間取得最佳平衡。

跑分 Llama-3.1 70B-instructLlama-3.1-Nemotron-51B- Instruct 準(zhǔn)確率
winogrande85.08%84.53%99.35%
arc_challenge70.39%69.20%98.30%
MMLU81.66%80.20%98.21%
hellaswag86.44%85.58%99.01%
gsm8k92.04%91.43%99.34%
truthfulqa59.86%58.63%97.94%
xlsum_english33.86%31.61%93.36%
MMLU Chat81.76%80.58%98.55%
gsm8k Chat81.58%81.88%100.37%
Instruct HumanEval (n=20)75.85%73.84%97.35%
MT Bench8.938.99100.67%

通過使用知識蒸餾技術(shù),Nvidia 縮小了參考模型(Llama-3.1-70B)與 Nemotron-51B 之間的精度差距,同時顯著降低了訓(xùn)練成本。

場景 Input/Output Sequence LengthLlama-3.1- Nemotron- InstructLlama-3.1-70B-InstructRatioLlama (TP1)
Chatbot128/1285478 (TP1)2645 (TP1)2.072645
Text generation128/10246472 (TP1)2975 (TP4)2.171274
Long text generation128/20484910 (TP2)2786 (TP4)1.76646
System 2 reasoning128/40963855 (TP2)1828 (TP4)2.11313
Summarization/ RAG2048/128653 (TP1)339 (TP4)1.92300
Stress test 12048/20482622 (TP2)1336 (TP4)1.96319

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達,AI,H100

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知