防止聊天機器人“造謠”，谷歌 Deepmind、斯坦福大學研究人員推出 AI 事實核查工具

2024/3/31 17:09:33 來源：IT之家作者：清源責編：清源

評論：

IT之家 3 月 31 日消息，無論當下 AI 聊天機器人有多么強大，都會或多或少存在一大飽受詬病的行為 —— 以看上去令人信服的方式，向用戶提供與事實不符的回答。簡單來說，AI 有時會在回答中“滿口跑火車”，甚至“造謠”。

圖源 Pixabay

防止 AI 大模型出現(xiàn)這種行為并非易事，且是一項技術性的挑戰(zhàn)。不過據(jù)外媒 Marktechpost 報道，谷歌 DeepMind 和斯坦福大學似乎找到了某種變通辦法。

研究人員推出了一種基于大語言模型的工具 —— 搜索增強事實評估器（IT之家注：原名為 Search-Augmented Factuality Evaluator，簡稱 SAFE），可對聊天機器人生成的長回復進行事實核查。其研究結果與實驗代碼、數(shù)據(jù)集現(xiàn)已公布，點此查看

該系統(tǒng)可通過四個步驟對聊天機器人生成的回復進行分析、處理和評估，以驗證準確性和真實性：將答案分割成單個待核查內(nèi)容、對上述內(nèi)容進行修正、再與谷歌搜索結果進行比較。隨后，該系統(tǒng)還會檢查各個事實與原始問題的相關性。

為評估其性能，研究人員創(chuàng)建了包含約 16000 個事實的數(shù)據(jù)集 LongFact，并在來自 Claude、Gemini、GPT、PaLM-2 的 13 個大語言模型上測試了該系統(tǒng)。結果顯示，在對 100 個有爭議的事實進行的重點分析中，SAFE 的判定在進一步審查下正確率達到 76% 。與此同時，該框架還具備經(jīng)濟性優(yōu)勢：成本比人工注釋便宜 20 多倍。

防止聊天機器人“造謠”，谷歌 Deepmind、斯坦福大學研究人員推出 AI 事實核查工具

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：聊天機器人，谷歌，deepmind，生成式AI，人工智能

防止聊天機器人“造謠”，谷歌 Deepmind、斯坦福大學研究人員推出 AI 事實核查工具

相關文章

防止聊天機器人“造謠”，谷歌 Deepmind、斯坦福大學研究人員推出 AI 事實核查工具