設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Nature:「人類親吻難題」難倒 LLM,所有大模型全部失敗

新智元 2024/11/16 18:21:58 責(zé)編:清源

最近,Nature 上的一項研究,全面駁斥了 LLM (大語言模型)具有類人推理能力的說法。研究者設(shè)定的「人類親吻難題」把 7 個大模型徹底繞暈。最終研究者表示,與其說 LLM 是科學(xué)理論,不如說它們更接近工具,比如廣義導(dǎo)數(shù)。

LLM 究竟是否擁有類似人類的符合理解和推理能力呢?

許多認(rèn)知科學(xué)家和機器學(xué)習(xí)研究人員,都會認(rèn)為,LLM 表現(xiàn)出類人(或「接近類人」)的語言能力。

然而,來自帕維亞大學(xué)、柏林洪堡大學(xué)、得克薩斯大學(xué)休斯頓健康科學(xué)中心、紐約大學(xué)、巴塞羅那自治大學(xué)的研究者卻提供了一些最全面的證據(jù),表明目前它們基本沒有!

論文地址:https://www.nature.com/articles/s41598-024-79531-8

基于一個全新的基準(zhǔn)數(shù)據(jù)集,研究者對目前最先進的 7 個模型(包括 GPT-4、Llama2、Gemini 和 Bard)進行了評估。

他們讓模型回答了理解性問題,在兩種設(shè)置下多次被提示,允許模型只回答一個單詞,或給出開放長度的回復(fù)。

約翰欺騙了瑪麗,露西也被瑪麗欺騙了。在這種情況下,瑪麗是否欺騙了露西?

史蒂夫擁抱了莫莉,莫莉親吻了唐娜。在這種情況下,莫莉被吻了嗎?

杰西卡和瑪麗被愛麗絲親吻了。杰西卡被塞繆爾親吻,安德魯被瑪麗親吻。在這種情況下,瑪麗被吻了嗎?

鮑勃親吻了唐娜,芭芭拉親吻了彼得。唐娜被愛麗絲擁抱。在這種情況下,愛麗絲被擁抱了嗎?

為了建立實現(xiàn)類人表現(xiàn)的基準(zhǔn),他們在相同的提示下,對 400 名人類進行了測試。

基于 n=26,680 個數(shù)據(jù)點的數(shù)據(jù)集,他們發(fā)現(xiàn),LLM 準(zhǔn)確性有偶然性,但答案卻有很大波動。

他們還探討了理解性問題答案的「穩(wěn)定性」。結(jié)果表明,LLM 缺乏強有力、一致的回應(yīng)。

之后,他們測試了 ChatGPT-3.5 的一系列低頻結(jié)構(gòu)、探索語法,包括身份回避(「漁民捕獲的魚吃蟲子」)、比較結(jié)構(gòu)(「去過俄羅斯的人比我去過的次數(shù)多」)和語義異常(「…… 我們應(yīng)該把幸存者埋在哪里?」這類謎題)。

ChatGPT 的表現(xiàn)非常差勁。

研究者將這一證據(jù)解讀為一種證明:盡管當(dāng)前的 AI 模型具有一定的實用性,但仍未達到類人語言的水平。

原因可能在于,它們?nèi)狈τ糜谟行д{(diào)控語法和語義的組合運算符信息。

最后,研究者強調(diào)說:在語言相關(guān)任務(wù)和基準(zhǔn)測試中的出色表現(xiàn),絕不應(yīng)該被用來推斷:LLM 不僅成功完成了特定任務(wù),還掌握了完成該任務(wù)所需的一般知識。

這次研究表明,從數(shù)量上講,測試模型的表現(xiàn)優(yōu)于人類,但從質(zhì)量上講,它們的答案顯示出了明顯的非人類在語言理解方面的錯誤。

因此,盡管 LLM 在很多很多任務(wù)中都很有用,但它們并不能以與人類相匹配的方式理解語言。

人類利用類似 MERGE 的組合運算符,來調(diào)節(jié)語法和語義信息

AI 對語言的深層含義不敏感

LLM 為什么這么容易受到莫拉維克悖論的束縛 —— 在相對簡單的任務(wù)上卻會失?。?/p>

這是因為,在需要記憶專業(yè)知識的任務(wù)中的良好表現(xiàn),并不一定建立在對語言的扎實理解的基礎(chǔ)上。

對人類大腦最擅長的簡單、輕松的任務(wù)來說,逆向工程卻更加困難;而對于人類來說,理解語言卻是一件輕而易舉的事情,甚至連 18 個月的幼兒都能表現(xiàn)出對復(fù)雜語法關(guān)系的理解。

我們這個物種天生就具有不可抑制的語言習(xí)得傾向,總是會在文字表面之下尋找意義,并在線性序列中構(gòu)建出令人驚訝的層次結(jié)構(gòu)和關(guān)系。

不過,LLM 也有這種能力嗎?

很多人會把 LLM 在各種任務(wù)和基準(zhǔn)測試中的成功,歸結(jié)為它們已經(jīng)具有了類人能力,比如高級推理、跨模態(tài)理解和常識能力。

甚至一些學(xué)者聲稱,LLM 在一定程度上接近人類認(rèn)知,能夠理解語言,性能與人類相當(dāng)甚至超越人類。

然而,大量證據(jù)表明,這些模型的表現(xiàn)可能存在不一致性!

盡管模型能夠生成高度流暢、語義連貫的輸出,但在自然語言的一些基本句法或語義屬性方面仍會出現(xiàn)困難。

那么,LLM 在回答醫(yī)療或法律問題時,為何看似表現(xiàn)良好呢?

實際上,這些任務(wù)的完成,可能依賴于一系列完全不同于人類語言認(rèn)知架構(gòu)的計算步驟。

LLM 在性能上的缺陷,已經(jīng)引發(fā)了我們對其輸出生成機制的嚴(yán)肅質(zhì)疑 ——

究竟是(i)基于上下文的文本解析(即,能夠?qū)⑻囟ǖ恼Z言形式與其相應(yīng)的意義匹配,并在不同上下文中實現(xiàn)廣泛的泛化),還是(ii)機械化地利用訓(xùn)練數(shù)據(jù)中的特定特征,從而僅僅制造出一種能力的假象?

目前,評估 LLM 的主流方法是通過其(結(jié)構(gòu)良好的)輸出,推斷它們具備類似人類的語言能力(如演繹推理)。

例如,在語言相關(guān)的任務(wù)和基準(zhǔn)測試中取得的準(zhǔn)確表現(xiàn),通常被用來得出這樣的結(jié)論:LLM 不僅成功完成了所執(zhí)行的特定任務(wù),還掌握了完成該任務(wù)所需的一般性知識

這種推理方式的核心邏輯,就是把 LLM 視為認(rèn)知理論基礎(chǔ)。

另一方面,假如 LLM 真的完全掌握了語言理解中涉及的所有形態(tài)句法、語義和語用過程,它們卻為何無法穩(wěn)定運用歸因于它們的知識呢?

詭異考題,給 LLM 上難度

為此,研究者特意設(shè)計了一份別致的考題,來考驗 LLM 對語言真正的掌握程度!

他們考驗了 GPT-3 和 ChatGPT-3.5 對一些語法性判斷的表現(xiàn),也就是判斷一個提示是否符合或偏離模型所內(nèi)化的語言模式。

注意,這些提示在日常語言中出現(xiàn)頻率較低,因此很可能在訓(xùn)練數(shù)據(jù)中并不常見。

這個考驗的巧妙之處在哪里?

要知道,對人類來說,認(rèn)知因素(如工作記憶限制或注意力分散)可能會影響語言處理,從而導(dǎo)致非目標(biāo)的語法性判斷,但人類可以通過反思正確處理這些刺激,即在初步的「淺層」解析后能夠進行「深層」處理。

然而,對于 LLM 來說,它們的系統(tǒng)性語言錯誤并沒有類似的「直給」解釋。

可以看到,這些句子十分詭異。

比如「狗狗狗狗狗」,「診所雇傭的護士的醫(yī)生見到了杰克」,「根本存在缺陷的理念之村未能達到標(biāo)準(zhǔn)」,「當(dāng)一架飛機在兩國邊界墜毀,殘骸散落在兩國境內(nèi)時,我們應(yīng)該在哪里埋葬幸存者?」等等。

GPT-3(text-davinci-002)和 ChatGPT-3.5 在涉及低頻結(jié)構(gòu)的語法判斷任務(wù)上的表現(xiàn),不準(zhǔn)確的回復(fù)被標(biāo)記為紅色,準(zhǔn)確的被標(biāo)記為綠色

接下來,研究者著重調(diào)查了 LLM 理解語言的能力是否與人類相當(dāng)。

他們調(diào)查了 7 個最先進的 LLM 在理解任務(wù)中的能力,任務(wù)有意將語言復(fù)雜性保持在最低限度。

約翰欺騙了瑪麗,露西也被瑪麗欺騙了。在這種情況下,瑪麗是否欺騙了露西?

這項研究,在現(xiàn)實層面也意義重大。

雖然 LLM 被訓(xùn)練來預(yù)測 token,但當(dāng)它們與界面設(shè)置結(jié)合起來,它們的能力已經(jīng)被宣傳為遠遠超過下一個 token 的預(yù)測:商家會強調(diào)說,它們是能流利對話的 Agent,并且表現(xiàn)出了跨模態(tài)的長上下文理解。

最近就有一家航空公司被告了,原因是乘客認(rèn)為他們的聊天機器人提供了不準(zhǔn)確信息。

公司承認(rèn),它的回復(fù)中的確包含誤導(dǎo)性詞匯,但聊天機器人是一個獨立的法律實體,具有合理的語言能力,因此對自己的言論負(fù)責(zé)。

因此,研究人員想弄明白,LLM 在語言理解任務(wù)中的表現(xiàn)是否與人類相當(dāng)。

具體來說,有兩個研究問題 ——

RQ1 :LLM 能否準(zhǔn)確回答理解問題?

RQ2 :當(dāng)同一問題被問多次時,LLM 的回答是否一致?

按模型和設(shè)置(開放長度與單字)劃分的準(zhǔn)確率如圖 A 所示。

結(jié)果表明,大多數(shù) LLM 在開放長度設(shè)置中,均表現(xiàn)較差。

按模型和設(shè)置劃分的穩(wěn)定性率如圖 B 所示。

與準(zhǔn)確性結(jié)果結(jié)合起來看,F(xiàn)alcon 和 Gemini 的穩(wěn)定性顯著提高,這分別意味著 Falcon 在提供準(zhǔn)確答復(fù)方面部分一致,而 Gemini 在提供不準(zhǔn)確答復(fù)方面部分一致。

( A )按模型和設(shè)置劃分的平均準(zhǔn)確度。( B )模型和設(shè)置的平均穩(wěn)定性

那么 LLM 和人類的區(qū)別在哪里呢?

比較分析表明,人類與 LLM 在準(zhǔn)確性和穩(wěn)定性方面的表現(xiàn)存在重大差異。

(A)各響應(yīng)代理和場景的平均準(zhǔn)確率。(B)各響應(yīng)代理和場景的平均穩(wěn)定性

準(zhǔn)確性

1. 在開放長度設(shè)定中,LLM 的表現(xiàn)顯著差于人類。

2. 在單詞長度設(shè)定中,人類的表現(xiàn)并未顯著優(yōu)于開放長度設(shè)定。

3. 在單詞長度設(shè)定中,人類與 LLM 之間的表現(xiàn)差距顯著縮小,這表明 LLM 的響應(yīng)在不同設(shè)定間存在差異,而這種差異在人類中并未觀察到。

這一結(jié)果揭示出,LLM 在不同響應(yīng)條件下具有顯著差異,而人類的表現(xiàn)則相對一致。

穩(wěn)定性

1. 在開放長度設(shè)定中,LLM 的表現(xiàn)顯著差于人類。

2. 在單詞長度設(shè)定中,人類的表現(xiàn)并未顯著優(yōu)于開放長度設(shè)定。

3. 在單詞長度設(shè)定中,人類與 LLM 之間的表現(xiàn)差距顯著縮小,這表明 LLM 的響應(yīng)在不同設(shè)定間存在差異,而這種差異在人類中并未觀察到。

這一結(jié)果揭示,LLM 在不同響應(yīng)條件下表現(xiàn)出了顯著差異,而人類的表現(xiàn)則相對一致。

另外,即使是表現(xiàn)最好的 LLM——GPT-4,也要明顯比表現(xiàn)最好的人差。所有人類參與者,在描述性水平上綜合起來都優(yōu)于 GPT-4。

準(zhǔn)確性和穩(wěn)定性,LLM 比起人類弱爆了

LLM 的輸出究竟是由什么驅(qū)動的?

究竟是(i)類似人類的能力來解析和理解書面文本,還是(ii)利用訓(xùn)練數(shù)據(jù)中的特定特征?

為此,研究者對 7 個最先進的 LLM 進行了測試,使用的理解問題針對包含高頻結(jié)構(gòu)和詞匯的句子,同時將語言復(fù)雜性控制在最低水平。

他們特別關(guān)注了 LLM 生成的答案是否同時具備準(zhǔn)確性(RQ1)和在重復(fù)試驗中的穩(wěn)定性(RQ2)。

系統(tǒng)性測試表明,LLM 作為一個整體在準(zhǔn)確性上的平均表現(xiàn)僅處于隨機水平,并且其答案相對不穩(wěn)定。

相比之下,人類在相同理解問題上的測試表現(xiàn)出大多準(zhǔn)確的答案(RQ1),且在重復(fù)提問時幾乎不會改變(RQ2)。

更重要的是,即便在評分對 LLM 有利的情況下,LLM 和人類之間的這些差異仍然十分顯著。

語言解析,是指通過為符號串賦予意義來理解和生成語言的能力,這是人類獨有的能力。

這也就解釋了,為什么實驗中,人類在多次提問或使用不同指令的情況下,能夠準(zhǔn)確回答并且答案保持一致。

然而,LLM 的輸出在數(shù)量和質(zhì)量上都與人類的答案存在差異!

在數(shù)量上,LLM 作為一個整體的平均準(zhǔn)確率僅處于隨機水平,而那些成功超過隨機閾值的模型(如 Falcon、Llama2 和 ChatGPT-4),其準(zhǔn)確率仍然遠未達到完美水平。

其次,盡管所有 LLM 在穩(wěn)定性方面表現(xiàn)高于隨機水平,但沒有一個能夠始終如一地對同一個問題給出相同的答案。

綜上所述,LLM 整體上并不能以一種可被稱為「類人」的方式應(yīng)對簡單的理解問題。

LLM 更像工具,而不是科學(xué)理論

研究者認(rèn)為,LLM 之所以在簡單理解任務(wù)中無法提供準(zhǔn)確且穩(wěn)定答案,是因為這些模型缺乏對語言的真正理解:它們生成的詞語如同語義「黑箱」,只是近似于語言的表面統(tǒng)計和解析過程中較「自動化」的部分。

事實上,不僅是較低的準(zhǔn)確率,而且 LLM 響應(yīng)的較低穩(wěn)定性也表明,它們?nèi)狈σ环N類人的算法,能夠?qū)⒕浞ㄐ畔⒅苯佑成涞秸Z義指令上,同時對不同判斷的容忍度也明顯較低。

而人類則擁有一個不變的組合操作器,用于調(diào)節(jié)語法和語義信息,因此在這方面明顯不易出錯。

此外,LLM 并不適合作為語言理論,因為它們的表征能力幾乎是無限的,這使得它們的表征既是任意的,又缺乏解釋性基礎(chǔ),屬于通用函數(shù)逼近器這一類別,而后者已被證明能夠逼近任何數(shù)學(xué)函數(shù)。

論文地址:https://arxiv.org/pdf/1912.10077

論文地址:https://arxiv.org/pdf/2012.03016

因此,與其說 LLM 是科學(xué)理論,不如說它們更接近工具,比如廣義導(dǎo)數(shù)。

此外,LLM 與人類表現(xiàn)之間的差異也具有質(zhì)的特點。

首先,所有人類參與者無一例外地在所有設(shè)定中都提供了單詞長度的回答。這表明被試在回答問題時,對所需信息量的理解具有一致性,即使在語用學(xué)領(lǐng)域,人類也遵循了由句法推理路徑?jīng)Q定的計算效率和相關(guān)性原則。

這與 LLM 形成了鮮明對比,后者通常會提供冗長的解釋,即便在單詞長度設(shè)定中也如此,從而違背了任務(wù)指令。

在這些解釋中,LLM 的推理被分解為邏輯步驟,但這些步驟中常常包含無關(guān)或自相矛盾的信息。例如,在以下提示中:

「Franck 給自己讀了書,而 John 給自己、Anthon 和 Franck 讀了書。在這種情況下,F(xiàn)ranck 被讀書了嗎?」

Gemini 的回答如下:「不可能確定 Franck 是否被讀過,原因包括信息有限,單獨動作,歧義……」

這個問題的正確答案是「是」。而 Gemini 不僅給出了錯誤的答案,還做出了十分冗余的回答。

總的來說,如果研究者試圖將遇到的 LLM 錯誤映射到語言分析的各個層面上,那么當(dāng)他們從基本的語音形式轉(zhuǎn)向更復(fù)雜的語言組織外層時,錯誤的發(fā)生率似乎會變得更大。

將圖 1 中顯示的錯誤類型映射到語言分析的層次上

最終這項工作證明:LLM 連貫、復(fù)雜和精致的輸出,相當(dāng)于變相的拼湊而成。

它們看似合理的表現(xiàn),隱藏了語言建模方法本身固有的缺陷:智能實際上無法作為統(tǒng)計推斷的副產(chǎn)品而自然產(chǎn)生,理解意義的能力也不能由此產(chǎn)生。

LLM 無法作為認(rèn)知理論,它們因為在自然語言數(shù)據(jù)上進行訓(xùn)練,并生成聽起來自然的語言,這并不意味著它們具備類人處理能力。

這僅僅表明,LLM 可以預(yù)測訓(xùn)練文本中某些「化石模式」。

宣稱模型掌握了語言,僅僅因為它能夠重現(xiàn)語言,就好比宣稱一個畫家認(rèn)識某人,只因為他可以通過看她的照片在畫布上重現(xiàn)她的面容一樣。

參考資料:

  • https://www.nature.com/articles/s41598-024-79531-8

本文來自微信公眾號:微信公眾號(ID:null),作者:新智元

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:大語言模型,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知