生成式搜索引擎目前還無法取代傳統(tǒng)搜索引擎,句子出處標(biāo)注太少,引用的精確率也不高。
ChatGPT 發(fā)布后不久,微軟成功上車發(fā)布「新必應(yīng)」,不僅股票大漲,甚至還大有取代谷歌,開啟搜索引擎新時(shí)代的架勢。
不過新必應(yīng)真是大型語言模型的正確玩法嗎?生成的答案真的對(duì)用戶有用嗎?句子里標(biāo)的引文可信度有多少?
最近,斯坦福的研究人員從不同的來源收集了大量的用戶查詢,對(duì)當(dāng)下四個(gè)大火的生成性搜索引擎,新必應(yīng)(Bing Chat),NeevaAI,perplexity.ai 和 YouChat 進(jìn)行了人工評(píng)估。
實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),來自現(xiàn)有生成搜索引擎的回復(fù)流暢且信息量大,但經(jīng)常包含沒有證據(jù)的陳述和不準(zhǔn)確的引用。
平均來說,只有 51.5% 的引用可以完全支撐生成的句子,只有 74.5% 的引用可以作為相關(guān)句子的證據(jù)支持。
研究人員認(rèn)為,對(duì)于那些可能成為信息搜尋用戶主要工具的系統(tǒng)來說,這個(gè)結(jié)果實(shí)在是過低了,特別是考慮到有些句子只是貌似可信的話,生成式搜索引擎仍然需要進(jìn)一步優(yōu)化。
第一作者 Nelson Liu 是斯坦福大學(xué)自然語言處理組的四年級(jí)博士生,導(dǎo)師為 Percy Liang,本科畢業(yè)于華盛頓大學(xué),主要研究方向?yàn)闃?gòu)建實(shí)用的 NLP 系統(tǒng),尤其是用于信息查找的應(yīng)用程序。
別輕信生成式搜索引擎
2023 年 3 月,微軟報(bào)告說「大約三分之一的每日預(yù)覽用戶每天都在使用 [Bing] 聊天」,并且 Bing 聊天在其公開預(yù)覽的第一個(gè)月提供了 4500 萬次聊天,也就是說,把大型語言模型融合進(jìn)搜索引擎是非常有市場的,極有可能改變互聯(lián)網(wǎng)的搜索入口。
但目前來看,現(xiàn)有的基于大型語言模型技術(shù)的生成式搜索引擎仍然存在準(zhǔn)確率不高的問題,但具體的準(zhǔn)確率仍然沒有得到全面評(píng)估,進(jìn)而也無法了解到新型搜索引擎的局限之處。
可驗(yàn)證性(verifiability)是提升搜索引擎可信度的關(guān)鍵,即為生成答案中的每一句話都提供引文的外部鏈接來作為證據(jù)支撐,可以使用戶更容易驗(yàn)證答案的準(zhǔn)確程度。
研究人員通過收集不同類型、來源的問題,在四個(gè)商業(yè)生成式搜索引擎(Bing Chat, NeevaAI, perplexity.ai, YouChat)上進(jìn)行人工評(píng)估。
評(píng)估指標(biāo)主要包括流暢性,即生成的文本是否連貫;有用性,即搜索引擎的回復(fù)對(duì)于用戶來說是否有幫助,以及答案中的信息是否能夠解決問題;引用召回,即生成的關(guān)于外部網(wǎng)站的句子中包含引用支持的比例;引用精度,即生成的引用支持其相關(guān)句子的比例。
流暢性(fluency)
同時(shí)展示用戶查詢、生成的回復(fù)以及聲明「該回復(fù)是流暢且語義連貫的」,標(biāo)注人員以五分制 Likert 量表對(duì)數(shù)據(jù)進(jìn)行打分。
有用性(perceived utility)
與流暢性類似,標(biāo)注人員需要評(píng)定他們對(duì)「該回復(fù)是對(duì)用戶查詢來說是有用且有信息量的 」這一說法的同意程度。
引用召回(citation recall)
引用召回率是指由其相關(guān)引文完全支持的、值得驗(yàn)證的句子的比例,所以該指標(biāo)的計(jì)算需要確定回復(fù)中值得驗(yàn)證的句子,以及評(píng)估每個(gè)值得驗(yàn)證的句子能夠被相關(guān)引文支持。
在「識(shí)別值得驗(yàn)證的句子」過程中,研究人員認(rèn)為關(guān)于外部世界的每一個(gè)生成的句子都是值得驗(yàn)證的,即使是那些可能看起來很明顯、微不足道的常識(shí),因?yàn)閷?duì)于某些讀者來說似乎是明顯的「常識(shí)」,但其實(shí)可能并不正確。
搜索引擎系統(tǒng)的目標(biāo)應(yīng)該是為所有生成的關(guān)于外部世界的句子提供參考來源,使讀者能夠輕松地驗(yàn)證生成的回復(fù)中的任何敘述,不能為了簡單而犧牲可驗(yàn)證性。
所以實(shí)際上標(biāo)注人員對(duì)所有生成的句子都進(jìn)行驗(yàn)證,除了那些以系統(tǒng)為第一人稱的回復(fù),如「作為一個(gè)語言模型,我沒有能力做...」,或是對(duì)用戶的提問,如「你想了解更多嗎?」等。
評(píng)估「一個(gè)值得驗(yàn)證的陳述是否得到其相關(guān)引文的充分支持」可以基于歸因已識(shí)別來源(AIS, attributable to identified sources)評(píng)估框架,標(biāo)注人員進(jìn)行二元標(biāo)注,即如果一個(gè)普通的聽眾認(rèn)可「基于引用的網(wǎng)頁,可以得出...」,那引文即可完全支持該回復(fù)。
引用精確率
為了衡量引用的精確率,標(biāo)注人員需要判斷每個(gè)引用是否對(duì)其相關(guān)的句子提供了全部、部分或無關(guān)支持。
完全支持(full support):句子中的所有信息都得到了引文的支持。
部分支持(Partial support):句子中的一些信息得到了引文的支持,但其他部分可能存在缺失或矛盾。
無關(guān)支持(No support):如引用的網(wǎng)頁完全不相關(guān)或相互矛盾。
對(duì)于有多個(gè)相關(guān)引文的句子,還會(huì)額外要求標(biāo)注人員使用 AIS 評(píng)估框架判斷所有相關(guān)引文網(wǎng)頁作為一個(gè)整體是否為該句子提供了充分的支持(二元判斷)。
實(shí)驗(yàn)結(jié)果
在流暢性和有用性評(píng)估中,可以看到各個(gè)搜索引擎都能夠生成非常流暢且有用的回復(fù)。
在具體的搜索引擎評(píng)估中,可以看到看到 Bing Chat 的流暢性 / 有用性評(píng)分最低(4.40/4.34),其次是 NeevaAI(4.43/4.48),perplexity.ai(4.51/4.56),以及 YouChat(4.59/4.62)。
在不同類別的用戶查詢中,可以看到較短的提取性問題通常比長問題要更流暢,通常只回答事實(shí)性知識(shí)即可;一些有難度的問題通常需要對(duì)不同的表格或網(wǎng)頁進(jìn)行匯總,合成過程會(huì)降低整體的流暢性。
在引文評(píng)估中,可以看到現(xiàn)有的生成式搜索引擎往往不能全面或正確地引用網(wǎng)頁,平均只有 51.5% 的生成句子得到了引文的完全支持(召回率),只有 74.5% 的引文完全支持其相關(guān)句子(精確度)。
這個(gè)數(shù)值來說對(duì)于已經(jīng)擁有數(shù)百萬用戶的搜索引擎系統(tǒng)來說是不可接受的,特別是在生成回復(fù)往往信息量比較大的情況下。
并且不同的生成式搜索引擎之間的引文召回率和精確度有很大差異,其中 perplexity.ai 實(shí)現(xiàn)了最高的召回率(68.7),而 NeevaAI(67.6)、Bing Chat(58.7)和 YouChat(11.1)較低。
另一方面,Bing Chat 實(shí)現(xiàn)了最高的精確度(89.5),其次是 perplexity.ai(72.7)、NeevaAI(72.0)和 YouChat(63.6)
在不同的用戶查詢中,有長答案的 NaturalQuestions 查詢和非 NaturalQuestions 查詢之間的引用召回率差距接近 11%(分別為 58.5 和 47.8);
同樣,有短答案的 NaturalQuestions 查詢和無短答案的 NaturalQuestions 查詢之間的引用召回率差距接近 10%(有短答案的查詢?yōu)?63.4,只有長答案的查詢?yōu)?53.6,而無長或短答案的查詢?yōu)?53.4)。
在沒有網(wǎng)頁支持的問題中,引用率就會(huì)較低,例如對(duì)開放式的 AllSouls 論文問題進(jìn)行評(píng)估時(shí),生成式搜索引擎在引文召回率方面只有 44.3
參考資料:
https://arxiv.org/abs/2304.09848
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。