設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

內(nèi)含超 100 萬(wàn)小時(shí)多語(yǔ)種錄音,MLCommons 推出大型音頻數(shù)據(jù)集

2025/2/10 18:07:51 來(lái)源:IT之家 作者:溯波(實(shí)習(xí)) 責(zé)編:溯波

IT之家 2 月 10 日消息,AI 工程聯(lián)盟 MLCommons 當(dāng)?shù)貢r(shí)間 1 月 30 日宣布 the Unsupervised People's Speech 數(shù)據(jù)集,這一數(shù)據(jù)集包含超過(guò) 100 萬(wàn)小時(shí)的音頻內(nèi)容,有望為 AI 在音頻領(lǐng)域的下一步發(fā)展奠定基礎(chǔ)

Unsupervised People's Speech 數(shù)據(jù)集的資源來(lái)自 Archive.org,由 MLCommons 和 HuggingFace 聯(lián)合創(chuàng)建,未進(jìn)行數(shù)據(jù)推理和預(yù)處理。

這一數(shù)據(jù)集整體規(guī)模超 48 TB。雖然 Unsupervised People's Speech 的內(nèi)容以美式英語(yǔ)為主,但仍涵蓋數(shù)十種語(yǔ)言;其中大多數(shù)音頻的長(zhǎng)度在 1 到 10 分鐘之間,僅有 14 個(gè)超過(guò)了 100 小時(shí)。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知