IT之家 2 月 23 日消息,Hugging Face 近日開(kāi)源了一款名為“Cosmopedia”的 AI 訓(xùn)練數(shù)據(jù)集,號(hào)稱(chēng)是目前世界上最大的合成數(shù)據(jù)集。
IT之家注意到,該數(shù)據(jù)集內(nèi)容均由 Mixtral 7b 模型匯總生成,其中收錄 3000 萬(wàn)以上文本文件,包含大量教科書(shū)、博客文章、故事小說(shuō)、WikiHow 教程等內(nèi)容,共計(jì) 250 億個(gè) Token。
據(jù)悉,Cosmopedia 數(shù)據(jù)集除了收錄上述文本文件外,還為每條文件提供了標(biāo)注信息,其中包含“提示”、“合成內(nèi)容”、“初始數(shù)據(jù)來(lái)源”、“標(biāo)記長(zhǎng)度”、“類(lèi)型”和“目標(biāo)受眾”等。同時(shí)團(tuán)隊(duì)也提供較小的子數(shù)據(jù)集 Cosmopedia-100k,供用戶(hù)輕松管理和使用。
Hugging Face 表示,這次開(kāi)源的數(shù)據(jù)集為 0.1 版本,未來(lái)團(tuán)隊(duì)還將持續(xù)更新該數(shù)據(jù)集,推進(jìn)業(yè)界 AI 訓(xùn)練發(fā)展,感興趣的小伙伴可以點(diǎn)此訪問(wèn)項(xiàng)目地址。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。