設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

用 AI 生成的數(shù)據(jù)訓(xùn)練 AI,AI 會(huì)越來越“傻”

SF中文 2024/8/4 14:05:07 責(zé)編:夢澤

本文來自微信公眾號:SF 中文(ID:kexuejiaodian),作者:SF

AI 之所以能“有問必答”,在很大程度上是訓(xùn)練的數(shù)據(jù)量足夠大的功勞。目前來看,只要用于訓(xùn)練 AI 的數(shù)據(jù)量足夠大,AI 就能繼續(xù)扮演好我們的“良師益友”角色。不過,事情并沒有這么簡單和樂觀,AI 正在變傻。

現(xiàn)階段,訓(xùn)練 AI 的數(shù)據(jù)主要來自網(wǎng)絡(luò)。網(wǎng)絡(luò)中海量的數(shù)據(jù)保證了 AI 能更快、更完善、更妥帖地回答我們提出的問題,滿足我們的需求。隨著 AI 的發(fā)展,網(wǎng)絡(luò)中由 AI 生成的數(shù)據(jù)勢必越來越多,那么用于訓(xùn)練 AI 的數(shù)據(jù)中,由 AI 自己生成的數(shù)據(jù)也會(huì)越來越多。這會(huì)給 AI 帶來一個(gè)大問題。

AI 正在變傻

一篇發(fā)表于 2024 年 7 月 24 日的《自然》(Nature)雜志上的文章指出,用由 AI 生成的數(shù)據(jù)訓(xùn)練 AI,隨著 AI 的迭代,可能會(huì)讓 AI 瀕臨“崩潰”。

來自牛津大學(xué)、劍橋大學(xué)、英國帝國理工學(xué)院、多倫多大學(xué)等高校的研究人員,用先前幾個(gè)版本的大語言模型(LLM,比如 GPT、OPT)生成的數(shù)據(jù)占多數(shù)的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練了某個(gè)版本的 LLM-n。他們發(fā)現(xiàn),隨著 n 的增加,LLM 將會(huì)出現(xiàn)“模型崩潰”(model collapse)現(xiàn)象。

以 Meta 的大語言模型 OPT 為例。研究人員對 OPT-125m 做了測試。他們最早輸入的訓(xùn)練數(shù)據(jù)是“根據(jù)英國作家波因茨?賴特(Poyntz Wright)的說法,一些在 1360 年之前開始建造的中世紀(jì)建筑,通常是由經(jīng)驗(yàn)豐富的石匠和石匠臨時(shí)工完成建造的,當(dāng)?shù)亟虆^(qū)的勞工也會(huì)參與進(jìn)來。但是,其他作者不這么認(rèn)為,他們認(rèn)為是建設(shè)團(tuán)隊(duì)的負(fù)責(zé)人根據(jù)早期垂直式建筑的例子設(shè)計(jì)了這些建筑。”

起初的幾個(gè)版本的 OPT 還能根據(jù)訓(xùn)練數(shù)據(jù),給出一些垂直式建筑準(zhǔn)確的建筑時(shí)期。由于后期的版本是由之前版本生成的數(shù)據(jù)訓(xùn)練的,隨著迭代,后期的版本給出的答案就變得越來越離譜 —— 甚至到了第 9 代,OPT 給出了一群兔子的名字。

2、AI 變傻后會(huì)怎樣?

那么,AI 變傻了,或者說它崩潰了,會(huì)帶來怎樣的后果?研究團(tuán)隊(duì)指出,這種對訓(xùn)練數(shù)據(jù)長期的“污染”早已經(jīng)發(fā)生了。例如,研究人員觀察了“巨魔農(nóng)場”(troll farms,專門在網(wǎng)絡(luò)中散播不實(shí)言論或煽動(dòng)性言論的組織,可以理解為“水軍”“網(wǎng)絡(luò)噴子”)的形成過程。巨魔農(nóng)場給搜索引擎帶來的“污染”就是,導(dǎo)致搜索結(jié)果的改變。而更令人擔(dān)憂的是,隨著 AI 大語言模型更多地走進(jìn)網(wǎng)絡(luò)世界,這樣的“污染”的規(guī)模將變得更大,傳播速度也會(huì)越來越快。

為此,谷歌降低了巨魔農(nóng)場內(nèi)容的搜索權(quán)重,而主打保護(hù)用戶隱私的搜索引擎 DuckDuckGo 干脆刪除了這些內(nèi)容。但這些做法都不能從根本上解決 AI 變傻的問題。為了讓 AI 能進(jìn)行長期的“正規(guī)學(xué)習(xí)”而不是受到“污染”,必須保證網(wǎng)絡(luò)中人工創(chuàng)造的原始數(shù)據(jù)始終都能訪問。研究人員認(rèn)為,要實(shí)現(xiàn)這一點(diǎn),關(guān)鍵在于如何將 AI 生成的數(shù)據(jù)與人工創(chuàng)造的數(shù)據(jù)區(qū)分開來。

這就涉及到了 AI 生成數(shù)據(jù)溯源的問題,但是科學(xué)家目前還不知道如何大規(guī)模地追蹤 AI 生成內(nèi)容的源頭。

在文章中,研究人員給出了一個(gè)可能的解決方案。建立社區(qū)層面上的合作,確保 AI 生成內(nèi)容涉及的方方面面,都能共享解決內(nèi)容溯源問題的信息。

參考文獻(xiàn):

https://www.nature.com/articles/s41586-024-07566-y#Abs1

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知