設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá)發(fā)布 6.3 萬(wàn)億 Token 大型 AI 訓(xùn)練數(shù)據(jù)庫(kù) Nemotron-CC

2025/1/13 21:18:27 來源:IT之家 作者:漾仔 責(zé)編:漾仔

IT之家 1 月 13 日消息,據(jù)英偉達(dá)官方博客,英偉達(dá)宣布推出一款名為 Nemotron-CC 的大型英文 AI 訓(xùn)練數(shù)據(jù)庫(kù),總計(jì)包含 6.3 萬(wàn)億個(gè) Token,其中 1.9 萬(wàn)億為合成數(shù)據(jù)。英偉達(dá)聲稱該訓(xùn)練數(shù)據(jù)庫(kù)可以幫助為學(xué)術(shù)界和企業(yè)界進(jìn)一步推動(dòng)大語(yǔ)言模型的訓(xùn)練過程。

目前,業(yè)界各類 AI 模型的具體性能主要取決于相應(yīng)模型的訓(xùn)練數(shù)據(jù)。然而現(xiàn)有公開數(shù)據(jù)庫(kù)在規(guī)模和質(zhì)量上往往存在局限性,英偉達(dá)稱 Nemotron-CC 的出現(xiàn)正是為了解決這一瓶頸,該訓(xùn)練數(shù)據(jù)庫(kù) 6.3 萬(wàn)億 Token 的規(guī)模內(nèi)含大量經(jīng)過驗(yàn)證的高質(zhì)量數(shù)據(jù),號(hào)稱是“訓(xùn)練大型語(yǔ)言模型的理想素材”。

數(shù)據(jù)來源方面,Nemotron-CC 基于 Common Crawl 網(wǎng)站數(shù)據(jù)構(gòu)建,并在經(jīng)過嚴(yán)格的數(shù)據(jù)處理流程后,提取而成高質(zhì)量子集 Nemotron-CC-HQ。

在性能方面,英偉達(dá)稱與目前業(yè)界領(lǐng)先的公開英文訓(xùn)練數(shù)據(jù)庫(kù) DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 訓(xùn)練的模型在 MMLU(Massive Multitask Language Understanding)基準(zhǔn)測(cè)試中的分?jǐn)?shù)提高了 5.6 分。

進(jìn)一步測(cè)試顯示,使用 Nemotron-CC 訓(xùn)練的 80 億參數(shù)模型在 MMLU 基準(zhǔn)測(cè)試中分?jǐn)?shù)提升 5 分,在 ARC-Challenge 基準(zhǔn)測(cè)試中提升 3.1 分,并在 10 項(xiàng)不同任務(wù)的平均表現(xiàn)中提高 0.5 分,超越了基于 Llama 3 訓(xùn)練數(shù)據(jù)集開發(fā)的 Llama 3.1 8B 模型。

英偉達(dá)官方表示,Nemotron-CC 的開發(fā)過程中使用了模型分類器、合成數(shù)據(jù)重述(Rephrasing)等技術(shù),最大限度地保證了數(shù)據(jù)的高質(zhì)量和多樣性。同時(shí)他們還針對(duì)特定高質(zhì)量數(shù)據(jù)降低了傳統(tǒng)的啟發(fā)式過濾器處理權(quán)重,從而進(jìn)一步提高了數(shù)據(jù)庫(kù)高質(zhì)量 Token 的數(shù)量,并避免對(duì)模型精確度造成損害。

IT之家注意到,英偉達(dá)已將 Nemotron-CC 訓(xùn)練數(shù)據(jù)庫(kù)已在 Common Crawl 網(wǎng)站上公開(點(diǎn)此訪問),英偉達(dá)稱相關(guān)文檔文件將在稍晚時(shí)候于該公司的 GitHub 頁(yè)中公布。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI模型Nemotron

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知