設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

研究發(fā)現(xiàn):AI 越聰明就越有可能“胡編亂造”

2024/9/29 13:20:36 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 9 月 29 日消息,一項新研究發(fā)現(xiàn),隨著大型語言模型(LLM)變得越來越強大,它們似乎也越來越容易編造事實,而不是避免或拒絕回答它們無法回答的問題。這表明,這些更聰明的 AI 聊天機器人實際上變得不太可靠。

圖源 Pexels

IT之家注意到,該研究發(fā)表在《自然》雜志上,研究人員研究了一些業(yè)界領先的商業(yè) LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小組 BigScience 創(chuàng)建的開源模型 BLOOM。

研究發(fā)現(xiàn),雖然這些 LLM 的回答在許多情況下變得更加準確,但總體上可靠性更差,給出錯誤答案的比例比舊模型更高。

瓦倫西亞人工智能研究所在西班牙的研究員 José Hernández-Orallo 對《自然》雜志表示:“如今,它們幾乎可以回答一切。這意味著更多正確的答案,但也意味著更多錯誤的答案。”

格拉斯哥大學的科學和技術哲學家 Mike Hicks 對此進行了更嚴厲的評價,Hicks(未參與該研究)告訴《自然》雜志:“在我看來,這就像我們所說的胡說八道,它越來越擅長假裝知識淵博。”

測試中,這些模型被問及了從數學到地理等各種主題,并被要求執(zhí)行諸如按指定順序列出信息等任務。總體而言,更大、更強大的模型給出了最準確的答案,但在更難的問題上表現(xiàn)不佳,其準確率較低

研究人員稱,一些最大的“撒謊者”是 OpenAI 的 GPT-4 和 o1,但所有被研究的 LLM 似乎都呈這種趨勢,對于 LLaMA 系列模型,沒有一個能夠達到 60% 的準確率,即使是最簡單的問題。

而當被要求判斷聊天機器人的回答是準確還是不準確時,一小部分參與者有 10% 到 40% 的概率判斷錯誤。

總之研究表明,AI 模型越大(就參數、訓練數據和其他因素而言),它們給出錯誤答案的比例就越高。

研究人員稱,解決這些問題最簡單的方法是讓 LLM 不那么急于回答一切。Hernández-Orallo 稱:“可以設置一個閾值,當問題具有挑戰(zhàn)性時,讓聊天機器人說‘不,我不知道’?!钡绻奶鞕C器人被限制為只回答它們知道的東西,可能會暴露技術的局限性。

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:AI,人工智能

軟媒旗下網站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知