研究：反復(fù)使用 AI 生成的內(nèi)容來訓(xùn)練 AI 可造成“模型崩潰”

2024/9/5 7:47:12 來源：IT之家作者：清源責(zé)編：清源

評論：

感謝IT之家網(wǎng)友咩咩洋的線索投遞！

IT之家 9 月 5 日消息，當(dāng)?shù)貢r(shí)間 9 月 4 日，據(jù)《福布斯》報(bào)道，牛津大學(xué)的伊利亞?舒梅洛夫博士和他的團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)生成式 AI 軟件僅依賴于由 AI 生成的內(nèi)容時(shí)，回答的質(zhì)量開始惡化。這項(xiàng)研究已經(jīng)發(fā)表在《自然》雜志上。

被大量信息嚇得頭暈?zāi)垦?、表情痛苦的機(jī)器人

在最初的兩次查詢后，答案逐漸偏離準(zhǔn)確性，到第五次時(shí)，質(zhì)量顯著下降，到了第九次連續(xù)查詢時(shí)，回答已完全退化為無意義的胡言亂語。研究人員將這種生成式 AI 內(nèi)容的循環(huán)過度使用稱為“模型崩潰”，即 AI 在不斷污染自己的訓(xùn)練集后，輸出的內(nèi)容逐漸偏離現(xiàn)實(shí)，最終變得毫無價(jià)值。

舒梅洛夫表示：“令人驚訝的是，模型崩潰發(fā)生得如此迅速且難以察覺。最初，它會(huì)影響到少數(shù)數(shù)據(jù) —— 那些代表性不足的數(shù)據(jù)。接著，它會(huì)影響輸出的多樣性，導(dǎo)致差異性減少。有時(shí)，你會(huì)觀察到對多數(shù)數(shù)據(jù)的微小改進(jìn)，但這種改進(jìn)掩蓋了少數(shù)數(shù)據(jù)表現(xiàn)的惡化。模型崩潰可能帶來嚴(yán)重后果?！?/p>

研究人員通過一種方法確定了“模型崩潰”現(xiàn)象的存在：使用一個(gè)預(yù)訓(xùn)練的 AI 驅(qū)動(dòng)的維基百科，然后讓 AI 模型基于自己生成的內(nèi)容進(jìn)行更新。受污染數(shù)據(jù)的影響逐漸導(dǎo)致原本的訓(xùn)練集被侵蝕，輸出的信息也隨之變得難以理解。例如，在第九次查詢循環(huán)后，研究中的維基百科條目從關(guān)于 14 世紀(jì)英國教堂尖頂的內(nèi)容滑稽地變成了一篇關(guān)于各種顏色的短尾兔子的論文。

報(bào)道稱，根據(jù)亞馬遜網(wǎng)絡(luò)服務(wù)（Amazon Web Services）團(tuán)隊(duì)在 6 月發(fā)布的另一項(xiàng)研究，大約 57% 的網(wǎng)絡(luò)文本都經(jīng)過了 AI 算法的翻譯。如果互聯(lián)網(wǎng)上的人類生成數(shù)據(jù)迅速被 AI 過濾內(nèi)容覆蓋，且舒梅洛夫的研究發(fā)現(xiàn)屬實(shí)，那么 AI 可能正在“自我毀滅”—— 并同時(shí)“毀滅”互聯(lián)網(wǎng)。

研究得出結(jié)論，要實(shí)現(xiàn) AI 的長期可持續(xù)發(fā)展，唯一方法是確保其能夠訪問現(xiàn)有的非 AI 生成內(nèi)容，并持續(xù)引入新的人工生成內(nèi)容。

IT之家附研究鏈接：

AI models collapse when trained on recursively generated data

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究：反復(fù)使用 AI 生成的內(nèi)容來訓(xùn)練 AI 可造成“模型崩潰”

相關(guān)文章