IT之家 7 月 16 日消息,據(jù) Wired 報道,包括蘋果在內(nèi)的一些科技巨頭未經(jīng) YouTube 視頻創(chuàng)作者同意,就使用了他們視頻的字幕文件來訓(xùn)練人工智能模型。
IT之家注意到,此次事件影響到的創(chuàng)作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脫口秀主持人斯蒂芬?科爾伯特、約翰?奧利弗和吉米?坎摩爾等。這些被用于訓(xùn)練 AI 的字幕文件相當于視頻的文本轉(zhuǎn)錄內(nèi)容。
調(diào)查記者披露,一些世界上最富有的科技公司一直在利用來自成千上萬個 YouTube 視頻的素材來訓(xùn)練 AI,而這違反了 YouTube 禁止從平臺上未經(jīng)許可抓取內(nèi)容的規(guī)定。據(jù)悉,超過 17.3 萬個來自 4.8 萬個頻道的 YouTube 視頻字幕文件被用來訓(xùn)練人工智能模型,其中就包括蘋果、英偉達、Salesforce 等硅谷巨頭。
據(jù)報道,下載這些字幕文件的是一個名為 EleutherAI 的非盈利組織,他們聲稱其目的是幫助開發(fā)者訓(xùn)練 AI 模型。雖然 EleutherAI 的初衷可能是為小型開發(fā)者和學(xué)術(shù)研究者提供訓(xùn)練材料,但該數(shù)據(jù)集也被蘋果等科技巨頭使用。
根據(jù) EleutherAI 發(fā)布的一篇研究論文,這份數(shù)據(jù)集是他們發(fā)布的名為“The Pile”的大型數(shù)據(jù)集的一部分。“The Pile”中的大部分數(shù)據(jù)集都是公開的,任何擁有足夠存儲空間和計算能力的人都可以訪問。除了科技巨頭之外,一些學(xué)者和開發(fā)者也使用了該數(shù)據(jù)集。然而,蘋果、英偉達和 Salesforce 等市值數(shù)百億甚至數(shù)千億美元的公司也在他們的研究論文和帖子中提到了他們?nèi)绾问褂迷摂?shù)據(jù)集來訓(xùn)練 AI 模型。
有文件顯示,蘋果在 4 月份發(fā)布了備受關(guān)注的 OpenELM 模型幾周之前,就使用了“The Pile”進行訓(xùn)練。而 OpenELM 模型的發(fā)布恰逢蘋果宣布將在 iPhone 和 Macbook 中加入新的 AI 功能。
需要注意的是,蘋果自己并沒有下載這些數(shù)據(jù),而是由 EleutherAI 完成的。因此,從技術(shù)層面來說,是 EleutherAI 違反了 YouTube 的使用條款。
盡管蘋果和其他公司可能使用了公開的數(shù)據(jù)集,但此事件凸顯了從網(wǎng)絡(luò)上抓取數(shù)據(jù)來訓(xùn)練 AI 系統(tǒng)所帶來的法律風險。此前就曾出現(xiàn)過 AI 系統(tǒng)在回答小眾話題時抄襲整段文本的案例,當公司使用第三方編譯的數(shù)據(jù)集時,只會增加未經(jīng)許可使用素材的風險。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。