IT之家 7 月 17 日消息,非營利性新聞工作室 ProofNews 昨日(7 月 16 日)發(fā)布博文,表示包括蘋果、英偉達、Salesforce 和 Anthrophic 在內的大型科技公司,在訓練其 AI 模型時均使用了來自 YouTube 的視頻資源。
報道稱這些科技公司在訓練其 AI 模型過程中,使用了名為 YouTube Subtitles 的數(shù)據(jù)集,大小為 5.7GB(4.89 億個單詞)。
該數(shù)據(jù)集由 EleutherAI 創(chuàng)建,最早發(fā)布于 2020 年,涉及超過 48000 個頻道的 173536 個 YouTube 視頻字幕內容,其中還包含 12000 多個平臺已刪除視頻的字幕內容。
YouTube Subtitles 數(shù)據(jù)集主要采集熱門 YouTube 頻道的資源,IT之家附上相關信息如下:
MrBeast(2.89 億訂閱者,其中有 2 段視頻用于訓練)
Marques Brownlee(1900 萬訂閱者,有 7 段視頻)
Jacksepticeye(近 3100 萬訂閱者,有 377 段視頻)
PewDiePie(1.11 億訂閱者,有 337 段視頻)
YouTube Subtitles 數(shù)據(jù)集隸屬于一個名為“The Pile”的數(shù)據(jù)集,其中包括其他幾個訓練數(shù)據(jù)集。大多數(shù)“The Pile”數(shù)據(jù)集都對任何有足夠空間和計算能力的人開放。
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。