設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

研究:反復(fù)使用 AI 生成的內(nèi)容來(lái)訓(xùn)練 AI 可造成“模型崩潰”

2024/9/5 7:47:12 來(lái)源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 咩咩洋 的線索投遞!

IT之家 9 月 5 日消息,當(dāng)?shù)貢r(shí)間 9 月 4 日,據(jù)《福布斯》報(bào)道,牛津大學(xué)的伊利亞?舒梅洛夫博士和他的團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)生成式 AI 軟件僅依賴于由 AI 生成的內(nèi)容時(shí),回答的質(zhì)量開(kāi)始惡化。這項(xiàng)研究已經(jīng)發(fā)表在《自然》雜志上。

被大量信息嚇得頭暈?zāi)垦?、表情痛苦的機(jī)器人

在最初的兩次查詢后,答案逐漸偏離準(zhǔn)確性,到第五次時(shí),質(zhì)量顯著下降,到了第九次連續(xù)查詢時(shí),回答已完全退化為無(wú)意義的胡言亂語(yǔ)。研究人員將這種生成式 AI 內(nèi)容的循環(huán)過(guò)度使用稱為“模型崩潰”,即 AI 在不斷污染自己的訓(xùn)練集后,輸出的內(nèi)容逐漸偏離現(xiàn)實(shí),最終變得毫無(wú)價(jià)值。

舒梅洛夫表示:“令人驚訝的是,模型崩潰發(fā)生得如此迅速且難以察覺(jué)。最初,它會(huì)影響到少數(shù)數(shù)據(jù) —— 那些代表性不足的數(shù)據(jù)。接著,它會(huì)影響輸出的多樣性,導(dǎo)致差異性減少。有時(shí),你會(huì)觀察到對(duì)多數(shù)數(shù)據(jù)的微小改進(jìn),但這種改進(jìn)掩蓋了少數(shù)數(shù)據(jù)表現(xiàn)的惡化。模型崩潰可能帶來(lái)嚴(yán)重后果。”

研究人員通過(guò)一種方法確定了“模型崩潰”現(xiàn)象的存在:使用一個(gè)預(yù)訓(xùn)練的 AI 驅(qū)動(dòng)的維基百科,然后讓 AI 模型基于自己生成的內(nèi)容進(jìn)行更新。受污染數(shù)據(jù)的影響逐漸導(dǎo)致原本的訓(xùn)練集被侵蝕,輸出的信息也隨之變得難以理解。例如,在第九次查詢循環(huán)后,研究中的維基百科條目從關(guān)于 14 世紀(jì)英國(guó)教堂尖頂的內(nèi)容滑稽地變成了一篇關(guān)于各種顏色的短尾兔子的論文。

報(bào)道稱,根據(jù)亞馬遜網(wǎng)絡(luò)服務(wù)(Amazon Web Services)團(tuán)隊(duì)在 6 月發(fā)布的另一項(xiàng)研究,大約 57% 的網(wǎng)絡(luò)文本都經(jīng)過(guò)了 AI 算法的翻譯。如果互聯(lián)網(wǎng)上的人類生成數(shù)據(jù)迅速被 AI 過(guò)濾內(nèi)容覆蓋,且舒梅洛夫的研究發(fā)現(xiàn)屬實(shí),那么 AI 可能正在“自我毀滅”—— 并同時(shí)“毀滅”互聯(lián)網(wǎng)。

研究得出結(jié)論,要實(shí)現(xiàn) AI 的長(zhǎng)期可持續(xù)發(fā)展,唯一方法是確保其能夠訪問(wèn)現(xiàn)有的非 AI 生成內(nèi)容,并持續(xù)引入新的人工生成內(nèi)容。

IT之家附研究鏈接:

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,生成式AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知