哥倫比亞大學(xué)研究：AI 搜索工具平均準(zhǔn)確率僅六成，且自信滿滿“不認(rèn)錯(cuò)”

2025/3/13 16:33:22 來(lái)源：IT之家作者：清源責(zé)編：清源

評(píng)論：

IT之家 3 月 13 日消息，據(jù)外媒 Techspot 周二報(bào)道，哥倫比亞大學(xué)數(shù)字新聞研究中心（Tow Center for Digital Journalism）近期對(duì)八款 AI 搜索引擎展開研究，包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人員測(cè)試了每款引擎的準(zhǔn)確性，并記錄了它們拒絕回答問題的頻率。

研究人員從 20 家新聞機(jī)構(gòu)中隨機(jī)挑選了 200 篇報(bào)道（每家 10 篇），確保它們?cè)诠雀杷阉鲿r(shí)能排在前三位，然后用相同的查詢方式測(cè)試各 AI 搜索工具，并評(píng)估它們是否正確引用了文章內(nèi)容、新聞機(jī)構(gòu)名稱和原始鏈接。

測(cè)試結(jié)果顯示，除 Perplexity 及其付費(fèi)版外，其余 AI 搜索引擎的表現(xiàn)都不盡如人意。整體來(lái)看，AI 搜索引擎提供的答案有 60% 是不準(zhǔn)確的，而且 AI 對(duì)錯(cuò)誤答案的“自信”反而加劇了問題。

這項(xiàng)研究的重要性在于，它用數(shù)據(jù)印證了外界多年來(lái)的擔(dān)憂 —— 大語(yǔ)言模型僅會(huì)出錯(cuò)，還擅長(zhǎng)一本正經(jīng)地胡說八道。它們往往以絕對(duì)肯定的語(yǔ)氣陳述錯(cuò)誤信息，甚至在被質(zhì)疑時(shí)仍然試圖自圓其說。

即使承認(rèn)了錯(cuò)誤，ChatGPT 仍可能在后續(xù)回答中繼續(xù)編造內(nèi)容。在大語(yǔ)言模型的設(shè)定中，幾乎是“無(wú)論如何都要給出答案”。研究數(shù)據(jù)支持了這一觀點(diǎn)：ChatGPT Search 是唯一回答了所有 200 個(gè)新聞查詢的 AI 工具，但其“完全正確”率僅 28%，而“完全錯(cuò)誤”率高達(dá) 57%。

ChatGPT 并非表現(xiàn)最糟的。X 旗下的 Grok AI 表現(xiàn)尤為不堪，其中 Grok-3 Search 的錯(cuò)誤率高達(dá) 94%。微軟 Copilot 也問題重重 —— 在 200 次查詢中，有 104 次拒絕作答，剩下的 96 次中，僅 16 次“完全正確”，14 次“部分正確”，66 次“完全錯(cuò)誤”，總體錯(cuò)誤率接近 70%。

這些 AI 工具的開發(fā)公司并未公開承認(rèn)這些問題，卻仍向用戶收取每月 20 至 200 美元（IT之家備注：當(dāng)前約 145 至 1449 元人民幣）的訂閱費(fèi)。此外，付費(fèi)版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）比免費(fèi)版回答得更多，但錯(cuò)誤率也更高。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

哥倫比亞大學(xué)研究：AI 搜索工具平均準(zhǔn)確率僅六成，且自信滿滿“不認(rèn)錯(cuò)”

相關(guān)文章

哥倫比亞大學(xué)研究：AI 搜索工具平均準(zhǔn)確率僅六成，且自信滿滿“不認(rèn)錯(cuò)”