設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

UC 伯克利等最新研究:大語言模型就是比人類啰嗦,“提問的藝術(shù)”仍難參透

新智元 2025/1/30 19:26:29 責(zé)編:清源

基于一段文本提問時,人類和大模型會基于截然不同的思維模式給出問題。大模型喜歡那些需要詳細(xì)解釋才能回答的問題,而人類傾向于提出更直接、基于事實(shí)的問題。

如果要你負(fù)責(zé)企業(yè)培訓(xùn),培訓(xùn)結(jié)束需要出一份考試題目,那如今你可以選擇將培訓(xùn)材料交給大模型,由大模型來負(fù)責(zé)出題并給出參考答案。

不過由大模型給出的考題,和人類出的題目究竟有沒有差別,以及有哪些差別?

最近,加州大學(xué)伯克利分校、沙特阿拉伯阿卜杜拉國王科技城(KACST)和華盛頓大學(xué)的研究人員發(fā)表了一項(xiàng)研究,首次系統(tǒng)評價了大模型提問的能力,并指出大模型和人類的提問模式存在顯著差異。

論文地址:https://arxiv.org/pdf/2501.03491

評價提問的四個維度

這項(xiàng)研究基于維基百科的文本,將文本拆分為 86 萬個段落,之后通過亞馬遜 Mechanical Turk 眾包平臺,由人類參與者為每個段落撰寫對應(yīng)的題目及答案,人類給出的文本將作為評估大模型的基準(zhǔn)。

圖 1:大模型出題并評價的模式

之后,研究人員將這些段落交給主流的大模型,包括閉源的 GPT-4o 和開源的 LLaMA-3.1-70b-Instruct,由大模型根據(jù)段落內(nèi)容及上下文提問,之后對問題的評價也由大模型進(jìn)行。

對問題的評價共包含 6 個指標(biāo),分為 2 組。前三個標(biāo)準(zhǔn)評估問題本身,而第二組標(biāo)準(zhǔn)負(fù)責(zé)評估反映問題質(zhì)量的潛在答案。首先介紹與答案無關(guān)的標(biāo)準(zhǔn)。

1. 問題類型

對于人類來說,選擇問哪個問題具有主觀性。這項(xiàng)研究定義了十種問題類型,例如驗(yàn)證 / 確認(rèn)問題,具體事實(shí)與數(shù)據(jù)問題及身份和歸屬問題等。

2. 問題長度

主要測量的是組成問題的單詞數(shù)量。除了直接比較人類和大模型所生成的問題長度外,該研究還考察了問題長度與問題類型之間的關(guān)系。

3. 上下文覆蓋率

上下文通常包括多個句子,問題可能只針對一個句子中的一個事實(shí),或者需要跨越多個句子進(jìn)行推理。這項(xiàng)標(biāo)準(zhǔn)旨在反映問題覆蓋文本內(nèi)容的長度,研究還分析了在生成過程中,大模型是否會有傾向性地關(guān)注上下文中的哪些特定部分。

4. 可回答程度

一個問題的關(guān)鍵質(zhì)量標(biāo)準(zhǔn)是它是否可以在特定知識的基礎(chǔ)上被精確地回答。具體來說,生成的提問應(yīng)在提供上下文的情況下可回答,而非是模棱兩可的。

5. 罕見性

大模型是在互聯(lián)網(wǎng)上廣泛可用的常識上進(jìn)行訓(xùn)練。因此,即使沒有明確提供上下文,大模型仍然可以進(jìn)行提問,因此需要評估問題相對于其預(yù)訓(xùn)練數(shù)據(jù)的罕見程度,從而判斷大模型究竟是有的放矢地提問,還是問給出一些泛泛而談的問題。

6. 答案所需的長度

除了問題長度外,所需答案的長度是衡量提問模式的一個更有效的指標(biāo)。然而,由于生成模型的回答往往冗長且包含很多無用細(xì)節(jié),所以首先要明確提示模型提供最短的文本作為回答,并指導(dǎo)模型在一定的字?jǐn)?shù)限制內(nèi)生成答案。此外,研究者還會對這些答案進(jìn)行額外評估,以確定是否可以用更少的詞達(dá)到相同的質(zhì)量評級。

大模型 vs.人類,問題差異在哪

研究結(jié)果顯示,首先:在問題類型上,與人類相比,大模型更傾向于提出需要描述性、更長答案的問題,大約 44% 的人工智能生成問題是這一類。

這可能是因?yàn)榇竽P驮谟?xùn)練過程中接觸到了大量描述性文本。而人類傾向于提出更直接、基于事實(shí)的問題,例如核查具體的事實(shí)和數(shù)字,或者人物、地點(diǎn)、事件等。

而在問題長度上,,大模型生成的問題長度更長,而且不同模型對問題長度的偏好有所不同,例如 GPT-4o 生成的描述性問題更長。而人類生成的問題更短,且不同類型的問題間長度差異較大。

圖 2:大模型提問的問題長度,前兩行是人類參與者的問題長度

而在上下文覆蓋上,人類產(chǎn)生的問題能更全面地覆蓋上下文信息,包括句子級別和詞語級別。這意味著相比人類,大模型的提問難以更全面地覆蓋所有文本,往往會揪著一個細(xì)節(jié)去提問。

圖 3:大模型和人類提出問題對應(yīng)的上下文在句子和單詞層面的覆蓋比

更值得關(guān)注的是,大模型更關(guān)注文本的前部和后部,而忽略中間部分,這一點(diǎn)之前的研究也有提及。

圖 4,大模型提問對不同位置的段落的覆蓋情況

對于提出的問題是否可以被解答,需要根據(jù)上下文信息分別判斷。如果提問所依據(jù)的文本包含了背景介紹,此時大模型生成的問題通常有清晰的答案。而如果文本中缺少上下文信息,缺乏常識的大模型生成的問題的可回答性會顯著下降,甚至有些問題無法回答。

圖 5,對比文本包含上下文以及不包含上下文時,大模型提出的問題時具有可回答度的評分分布

類似的,由于生成模型的特性,大模型生成的問題通常需要更長的答案、包含更多細(xì)節(jié)。同時大模型生成的答案可壓縮性較差:盡管可以壓縮,但仍然需要比人類更長的答案。

圖 6:大模型和人類提出問題對應(yīng)的回答的長度

研究 AI 提問的意義

這項(xiàng)研究中,交給 AI 提問的只是一個段落,而非具有更豐富上下文的文章。未來的研究,需要考察的是大模型面對更長的文本,甚至是多篇長文本組成的書籍時會提出怎樣的問題,并考察不同閱讀難度、不同學(xué)科背景的文本。

如今 AI 生成的提問在商業(yè)產(chǎn)品中變得越來越普遍。例如,亞馬遜的購物助手會建議與產(chǎn)品相關(guān)的問題,而搜索引擎 Perplexity 和 X 的聊天機(jī)器人 Grok 則使用后續(xù)問題來幫助用戶深入了解主題。

由于 AI 問題具有于區(qū)別于人類提問者的獨(dú)特模式,我們就可以據(jù)此測試 RAG 系統(tǒng),或識別 AI 系統(tǒng)何時在編造事實(shí)。

對大模型提問模式的了解,還可以幫助用戶編寫更好的提示詞,無論是希望 AI 生成更類人的問題,還是要求有特定特征的問題。

隨著人們越來越依賴大模型,本文最初描述的基于大模型出考試題,將會在未來變得越來越普遍,進(jìn)而潛移默化地影響人類學(xué)生的思考模式,也許會讓我們的下一代變得啰啰嗦嗦,或者看文章時只關(guān)注特定細(xì)節(jié),尤其是頭尾部的(考核中的重點(diǎn))。

不過大模型的提問模式也是可以微調(diào)的,知道了大模型提問和人類的差異,我們就可以有針對性地進(jìn)行改變。

參考資料:

  • https://arxiv.org/pdf/2501.03491

本文來自微信公眾號:新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,大語言模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知