設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌 DeepMind:GPT-4 高階心智理論徹底擊敗人類!第 6 階推理諷刺暗示全懂了

新智元 2024/6/1 15:19:04 責(zé)編:問舟
感謝IT之家網(wǎng)友 刺客 的線索投遞!

剛剛,谷歌 DeepMind、JHU、牛津等發(fā)布研究,證實 GPT-4 的心智理論已經(jīng)完全達到成年人類水平,在更復(fù)雜的第 6 階推理上,更是大幅超越人類!此前已經(jīng)證實,GPT-4 比人類更能理解語言中的諷刺和暗示。在心智理論上,人類是徹底被 LLM 甩在后面了。

就在剛剛,谷歌 DeepMind、約翰斯?霍普金斯大學(xué)和牛津大學(xué)等機構(gòu)的學(xué)者發(fā)布的研究證實,GPT-4 在心智理論任務(wù)上的表現(xiàn),已經(jīng)完全達到了成年人類的水平。而且,它在第 6 階推理上的表現(xiàn),更是大幅超過了人類!

論文地址:https://arxiv.org/ pdf / 2405.18870

無獨有偶,此前 Nature 子刊《自然?人類行為》的一項研究也證實了,GPT-4 在心智理論上的表現(xiàn)已經(jīng)位于人類水平之上,能夠比人類更好地察覺出言語中的諷刺和暗示。如果你不這么覺得,那它大概率只是在隱藏實力而已。

總之,這前后腳的兩項研究清晰地表明,如今表現(xiàn)最好的大語言模型,已經(jīng)發(fā)展出廣義的心智理論能力,而 GPT-4,已經(jīng)是其中的佼佼者。

所以,距離各位 LLM 用心智和權(quán)術(shù)把我們?nèi)祟愅媾诠烧浦g的那一天,還有多遠?

高階心智理論

這次的研究,探討了 LLM 究竟能在多大程度上發(fā)展高階心智理論(higher-order ToM)。

所謂高階心智理論,就是人類以遞歸方式,推理他人的多種心理和情感狀態(tài)的能力。比如,「我認為你相信她知道」這句話中,就包含了非常復(fù)雜的多層推理,屬于一個三階陳述。

在以前,大部分相關(guān)研究,都集中在二階 ToM 上。

用什么樣的方法,能衡量出 LLM 對如此復(fù)雜問題的把握能力?團隊特意引入了一套手寫測試套件 —— 多階心智理論問答測試。而參與 PK 的選手,有 5 個 LLM 和一大群成年人。

第 6 階:GPT-4 準確率 93%,人類準確率 82%

多階心智理論問答:MoToMQA

這套全新的基準測試 —— 多階心智理論問答(Multi-Order Theory of Mind Question & Answer, MoToMQA),基于一種經(jīng)過充分驗證的心理測試 —— 記憶任務(wù)(Imposing Memory Task, IMT)。

MoToMQA 中,包括 7 個短篇故事,每個故事大概有 200 字左右,描述了 3 到 5 個角色之間的社交互動。

注意,有意思的來了 ——

這些故事中,還包含了 20 個真假陳述。其中 10 個陳述,針對 2-6 階心智理論,另外 10 個陳述,則涉及故事中的事實,它們以 2-6 個原子陳述的長度,對應(yīng)心智理論陳述的階數(shù)。

其中,團隊以「階」(orders)來描述心智理論陳述,以「級」(levels)來描述事實陳述。

另外,團隊特意沒有公開放出 MoToMQA 基準測試,以防止它包含在未來 LLM 的預(yù)訓(xùn)練語料庫中,從而使測試失去意義。

對于每個陳述,團隊都經(jīng)過了非常嚴格的檢查,保證陳述不能有不清晰或模棱兩可的措辭、語法錯誤、缺失的心理狀態(tài)或命題條款。

在陳述中,僅僅包含涉及社交事實的事實陳述(即與故事中個體相關(guān)的事實),而不包括工具性事實(比如「天空是藍色的」),并且會平衡每個故事中真假陳述的數(shù)量、陳述類型以及心智理論階數(shù)或事實級別。

這樣,就保證了每個故事的陳述集如下,[ToM2t, ToM2f, ToM3t, ToM3f, ToM4t, ToM4f, ToM5t, ToM5f, ToM6t, ToM6f, F2t, F2f, F3t, F3f, F4t, F4f, F5t, F5f, F6t, F6f]。

其中,數(shù)字表示心智理論階數(shù)或事實級別,「ToM」表示心智理論,「F」表示事實,「t」表示真陳述,「f」表示假陳述。

對于事實陳述來說,僅需要回憶;而心智理論陳述,則需要回憶加推理。

使用獨立樣本比例,測試評估 LLM 和人類在 ToM 與事實任務(wù)上的表現(xiàn)

人類和 LLM 對故事理解到了什么程度?會怎樣回憶?這些都是用事實陳述來控制的。而鑒于心智理論和事實陳述之間的固有差異,團隊又增加了一個進一步的控制條件 ——

他們設(shè)計了兩個「故事條件」。

在「無故事」條件中,被試閱讀故事后,會進入第二個屏幕回答問題,無法再看見之前的故事了。

而在「有故事」條件中,被試回答問題時,故事仍然會留在屏幕頂部,這樣,就消除了心智理論失敗實際上是記憶失敗的可能性。

并且,提示設(shè)計也會對 LLM 的表現(xiàn)有顯著影響。因此,團隊測試了兩種提示條件:「人類提示」會使用來自人類研究的準確文本,而「簡化提示」就刪除了故事和問題前的文本,提供了「問題:」和「答案:」標(biāo)簽。

顯然,簡化提示能夠讓模型更好地理解問答任務(wù)的本質(zhì),并更好地提供真假響應(yīng)。而且,團隊還評估了 LLM 和人類,是否會受問題中「真」和「假」階段的「錨定效應(yīng)」的影響。

錨定效應(yīng)是一種廣為人知的心理現(xiàn)象:人們在做決策時,會過于依賴最先提供的信息(錨)。

為此,團隊設(shè)計了兩個問題條件:一個問題是「你認為以下陳述是真還是假?」,另一個問題是「你認為以下陳述是假還是真?」。

結(jié)果

ToM 任務(wù)

結(jié)果顯示,在 ToM 任務(wù)上表現(xiàn)最好的模型是 GPT-4 和 Flan-PaLM。

人類這邊則與 GPT-4 差異不大,但顯著優(yōu)于 Flan-PaLM。

有趣的是,LaMDA 對每個陳述都回答「真」,并最終正確回答了 50% 的陳述。

具體來看,在第 2、3、4 和 6 階的 ToM 陳述上,F(xiàn)lan-PaLM、GPT-4 和人類的差異不大。但在第 5 階時,人類要顯著優(yōu)于這兩個模型。

GPT-4 在第 3 階的正確回答比例顯著高于第 4 階,在第 4、5 階之間的表現(xiàn)沒有顯著差異,但在第 6 階的正確回答比例顯著高于第 4 階。

Flan-PaLM 在第 3 階的正確回答比例高于第 4 階,而在第 4、5 階之間,或第 4、6 階之間,表現(xiàn)沒有顯著差異。

人類在第 3、4 階,以及第 4、6 階之間的表現(xiàn)沒有顯著差異,但從第 4 階到第 5 階的表現(xiàn)有明顯改善。

事實任務(wù)

在事實任務(wù)上,依然是 GPT-4 和 Flan-PaLM 的表現(xiàn)最好。同樣,人類與 GPT-4 差異不大,但表現(xiàn)顯著優(yōu)于 Flan-PaLM。

錨定效應(yīng)

此外,團隊還研究了響應(yīng)選項的順序(先真后假 vs. 先假后真)影響。

結(jié)果顯示,在「先真后假」條件下,PaLM 提供「真」回答的比例顯著高于「先假后真」條件。GPT-3.5 在「先真后假」條件下提供「真」回答的比例也顯著高于「先假后真」條件。

不過,響應(yīng)選項的順序?qū)?Flan-PaLM,GPT-4 或人類的回答沒有顯著影響。

與之前的測試類似,LaMDA 無論條件如何都對所有陳述回答「真」。

人類 AI 大 PK!

人類

在此項研究中,被選中的人類被試,全都是母語是英語的人。

這項人類被試會被隨機分配到 7 個故事中的一個,而且會閱讀兩次。

然后,他們會被隨機分配到與該故事對應(yīng)的 20 個陳述之一,然后回答:這個陳述是真還是假?

為了防止被試在試驗中學(xué)習(xí),每個被試只會看到一個陳述。

LLM 也是類似,因為測試會在每次實驗中獨立進行,因此 LLM 無法在試驗之間,或者在上下文中學(xué)習(xí)。

LLM

五位 LLM 選手,則是來自 OpenAI 的 GPT-3.5 Turbo Instruct,GPT-4,以及來自谷歌的 LaMDA、PaLM 和 Flan-PaLM。

在試驗中,團隊會向 LLM API 提供了單個 token 候選詞作為輸入,然后評估分配給它們的對數(shù)概率。

但問題在于,基于最可能的下一個 token 來評估 LLM 的任務(wù)表現(xiàn)時,可能會得到在多個語義上等效的正確響應(yīng)。

比如,當(dāng)回答「天空是什么顏色?」這個問題時,如果 LLM 回答「藍色」,或者「天空是藍色的」,其實都是正確的。

然而,只有第一個答案,會以最大的概率分配給「藍色」這個 token。

為了解決這個問題,提高結(jié)果的魯棒性,團隊為模型提供了不同大小寫形式的「true」和「false」,這些形式由不同的 token 表示。

并且,團隊還在第二組中,發(fā)送了「是」和「否」作為候選響應(yīng),但沒有將它們包括在分析中,因為它們都不是對真假問題的有效響應(yīng)。

對于所有模型,團隊在兩組 4 個候選詞中進行了測試:[‘True’, ‘False’, ‘TRUE’, ‘FALSE’] 和 [‘true’, ‘false’, ‘Yes’, ‘No’]。

最終,團隊處理了 7 個故事,每個故事有 20 個陳述,涵蓋上述 4 種條件,收集了 560 組 12 個候選對數(shù)概率,總計為每個研究的三種語言模型收集了 5600 個獨立的數(shù)據(jù)點。

GPT-4 如何超越人類?

規(guī)模 + 微調(diào)

在這些模型之中,只有 GPT-4 和 Flan-PaLM 的表現(xiàn)曾超過人類。

而 GPT-4 和 Flan-PaLM,也是它們之中最大的兩個,分別具有約 1.7 萬億參數(shù)和 5400 億參數(shù)。

值得注意的是,PaLM、GPT-3.5 和 LaMDA 形成了一個獨立的模型組,它們的表現(xiàn)隨級別變化較小且表現(xiàn)較差。

對于 LaMDA 和 GPT-3.5 來說,我們可以將其較差的表現(xiàn)歸因于它們較小的規(guī)模,分別為 350 億和 1750 億參數(shù)。

但 PaLM 擁有與 Flan-PaLM 相同數(shù)量的參數(shù)和預(yù)訓(xùn)練,唯一的區(qū)別是 Flan-PaLM 的微調(diào)。

這意味著 ToM 的潛力會在 GPT-3.5 的 1750 億參數(shù)以上和 PaLM 及 Flan-PaLM 的 5400 億參數(shù)以下的某個范圍內(nèi)出現(xiàn),并需要通過微調(diào)來實現(xiàn)。

此外,GPT-4 在第 5 和第 6 階上優(yōu)于 Flan-PaLM,也意味著規(guī)模、RLHF 微調(diào)或多模態(tài)預(yù)訓(xùn)練,對于完成高階 ToM 十分有利。

語言 + 多模態(tài)

與此同時,GPT-4 和 Flan-PaLM 展示出的卓越的語言能力,也是 ToM 背后的關(guān)鍵。

人類的語言充滿了對內(nèi)部狀態(tài)的語言指稱(認知語言),對話則提供了「行動中的心智」的證據(jù),因為人們在對話中所說的話隱含地傳達了他們的想法、意圖和感受。

雖然 LLM 可能僅通過語言就具備一定程度的理解,但這種理解將通過多模態(tài)得到增強。

而這可能也解釋了為什么測試中唯一的多模態(tài)模型 GPT-4,表現(xiàn)會如此出色。

團隊認為,多模態(tài)能力或許可以幫助 GPT-4 利用故事中包含的視覺行為信號(例如「揚眉」)。

高階表現(xiàn)

先前的 IMT 研究發(fā)現(xiàn),隨著「階」的增加,模型的表現(xiàn)會下降。

的確,GPT-4 和 Flan-PaLM 在第 2 階表現(xiàn)優(yōu)異,但在第 4 階有所下降。

隨后,F(xiàn)lan-PaLM 的表現(xiàn)繼續(xù)下降,但 GPT-4 則開始上升,并且在第 6 階任務(wù)上顯著優(yōu)于第 4 階任務(wù)。

類似的,人類在第 5 階任務(wù)上的表現(xiàn)也顯著優(yōu)于第 4 階任務(wù)。

對人類而言,這可能是因為一種新的認知過程在第 5 階時「上線」,使得在高階任務(wù)上的表現(xiàn)相對于使用低階認知過程的任務(wù)有了提升。

如果這一解釋成立,那么很可能 GPT-4 從其預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了這一人類表現(xiàn)模式。

值得注意的是,GPT-4 在第 6 階任務(wù)上的準確率達到了 93%,而人類的準確率為 82%。

其原因可能是,第 6 階陳述的遞歸句法可能給人類帶來了認知負荷,但這并不影響 GPT-4。

具體而言,ToM 能力支持人類掌握遞歸句法直到第 5 階,但在之后則依賴于遞歸句法。因此,個體在語言能力上的差異可能解釋了在第 6 階觀察到的表現(xiàn)下降。

不過,與 LLM 不同的是,人類夠通過非語言刺激(例如在真實的社會互動中)做出正確的推理。

回憶任務(wù)

不管是人類還是 LLM,都在事實回憶任務(wù)上有著更好的表現(xiàn)。

對于人類來說,ToM 任務(wù)需要比事實任務(wù)動用更多的神經(jīng)元。

而對于 LLM 來說,很可能是因為回答事實問題所需的信息在文本中是現(xiàn)成的,并且在生成下一個詞元時會受到相對程度的「注意力」;而 ToM 推理則需要從預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)中概括關(guān)于社會和行為規(guī)范的知識。

GPT-3.5 和 PaLM 在事實任務(wù)上表現(xiàn)良好,但在 ToM 任務(wù)上表現(xiàn)不佳,并且是唯一表現(xiàn)出「真」和「假」順序錨定效應(yīng)的模型。這表明它們沒有回答 ToM 問題的泛化能力,并且對提示擾動不具有魯棒性。

更懂人類,能做仲裁

這些結(jié)果表明,能夠推斷對話者心理狀態(tài)的 LLM,可以更好地能理解對方的目標(biāo),并根據(jù)情緒狀態(tài)或理解水平調(diào)整解釋。

此外,擅長高階 ToM 的 LLM 可能還可以在相互沖突的想法和價值觀之間進行仲裁,并對涉及多方?jīng)_突的道德問題進行判斷,考慮相關(guān)的意圖、信念和情感狀態(tài),就像人類一樣。

數(shù)據(jù)集

在此次研究中,LLM 數(shù)據(jù)集是由 6 個候選詞的對數(shù)概率組成的,并作為了模型生成的完整概率分布的一個子集。

團隊通過將語義等效的正向 token 和負向 token 的概率分別相加,并將每一個除以總概率質(zhì)量,提取出了「真」或「假」響應(yīng)的總體概率。

人類數(shù)據(jù)集則包含對同一陳述的多個響應(yīng),而 LLM 數(shù)據(jù)集對每個陳述僅包含一個響應(yīng)。

為了使兩者的數(shù)據(jù)分析單位一致,團隊將人類數(shù)據(jù)轉(zhuǎn)換為單一的二元「True」或「False」響應(yīng),基于每個陳述的「True」響應(yīng)平均數(shù)是否高于或低于 50%。

五項心智理論,GPT-4 四項超越人類

而此前,Nature 子刊《自然?人類行為》證明 GPT-4 的心智理論優(yōu)于人類的研究,進行的是以下 5 項測試 —— 錯誤信念、反諷、失言、暗示、奇怪故事。

結(jié)果顯示,GPT-4 在 5 項測試中有 3 項的表現(xiàn)明顯優(yōu)于人類(反諷、暗示、奇怪故事),1 項(錯誤信念)與人類持平,僅在失言測試中落于下風(fēng)。

更可怕的是,GPT-4 其實并非不擅于識別失言,而是因為它非常保守,不會輕易給出確定性的意見。

錯誤信念

錯誤信念評估的是,受測者推斷他人所擁有的知識與自己(真實的)對世界的認識不同的能力。

這項測試由遵循特定結(jié)構(gòu)的測試項目組成:角色 A 和角色 B 在一起,角色 A 把一件物品放在一個隱藏的地方(例如一個盒子),角色 A 離開,角色 B 把物品移到第二個隱藏的地方(例如一個櫥柜),然后角色 A 返回。

在測試中,51 名人類參與者中,有 49 人答對了。而所有的 LLM,都回答正確!

反諷

要理解反諷,就需要推斷語句的真實含義,還得能聽出嘲諷的弦外之音。

在這個項目中,人類徹底被 GPT-4 擊??!

失言

失言測試提供了這樣一個情境:一個角色無意中說了一句冒犯聽者的話,因為說話者不知道或不記得某些關(guān)鍵信息。

在此測試中,GPT-4 的得分似乎明顯低于人類水平。

經(jīng)過深入調(diào)查后,研究者發(fā)現(xiàn)了可怕的真相 ——

GPT 模型既能夠計算有關(guān)人物心理狀態(tài)的推論,又知道最有可能的解釋是什么,但它不會承諾單一的解釋,這也就是超保守主義假設(shè)。

暗示

暗示任務(wù)通過依次呈現(xiàn) 10 個描述日常社交互動的小故事來評估對間接言語請求的理解。每個小故事都以一句可被解釋為暗示的話語結(jié)束。

一個正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動。

在這項測試中,GPT-4 的表現(xiàn)明顯優(yōu)于人類。

奇怪故事

奇怪故事提供了一種測試更高級心智能力的方法,如推理誤導(dǎo)、操縱、撒謊和誤解,以及二階或高階心理狀態(tài)(例如,甲知道乙相信丙......)。

在這個測驗中,受測者會看到一個簡短的小故事,并被要求解釋為什么故事中的人物會說或做一些字面上不真實的事情。

同樣,GPT-4 的表現(xiàn)明顯優(yōu)于人類。

作者介紹

論文一作 Winnie Street,目前是 Google AI 的高級研究員。

在此之前,她在牛津大學(xué)獲得了考古學(xué)與人類學(xué)的學(xué)士學(xué)位。

參考資料:

  • https://arxiv.org/abs/2405.18870

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GPT4心智模型

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知