設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

100:87:GPT-4 心智碾壓人類,三大 GPT-3.5 變種難敵

新智元 2023/5/3 12:41:11 責(zé)編:夢澤

最新研究結(jié)果表明,AI 在心智理論測試中的表現(xiàn)已經(jīng)優(yōu)于真人。GPT-4 在推理基準(zhǔn)測試中準(zhǔn)確率可高達(dá) 100%,而人類僅為 87%。

GPT-4 的心智理論,已經(jīng)超越了人類!

最近,約翰斯?霍普金斯大學(xué)的專家發(fā)現(xiàn),GPT-4 可以利用思維鏈推理和逐步思考,大大提升了自己的心智理論性能。

論文地址:https://arxiv.org/ abs / 2304.11490

在一些測試中,人類的水平大概是 87%,而 GPT-4,已經(jīng)達(dá)到了天花板級別的 100%!

此外,在適當(dāng)?shù)奶崾鞠?,所有?jīng)過 RLHF 訓(xùn)練的模型都可以實現(xiàn)超過 80% 的準(zhǔn)確率。

讓 AI 學(xué)會心智理論推理

我們都知道,關(guān)于日常生活場景的問題,很多大語言模型并不是很擅長。

Meta 首席 AI 科學(xué)家、圖靈獎得主 LeCun 曾斷言:「在通往人類級別 AI 的道路上,大型語言模型就是一條歪路。要知道,連一只寵物貓、寵物狗都比任何 LLM 有更多的常識,以及對世界的理解。」

也有學(xué)者認(rèn)為,人類是隨著身體進(jìn)化而來的生物實體,需要在物理和社會世界中運作以完成任務(wù)。而 GPT-3、GPT-4、Bard、Chinchilla 和 LLaMA 等大語言模型都沒有身體。

所以除非它們長出人類的身體和感官,有著人類的目的的生活方式。否則它們根本不會像人類那樣理解語言。

總之,雖然大語言模型在很多任務(wù)中的優(yōu)秀表現(xiàn)令人驚嘆,但需要推理的任務(wù),對它們來說仍然很困難。

而尤其困難的,就是一種心智理論(ToM)推理。

為什么 ToM 推理這么困難呢?

因為在 ToM 任務(wù)中,LLM 需要基于不可觀察的信息(比如他人的隱藏心理狀態(tài))進(jìn)行推理,這些信息都是需要從上下文推斷出的,并不能從表面的文本解析出來。

但是,對 LLM 來說,可靠地執(zhí)行 ToM 推理的能力又很重要。因為 ToM 是社會理解的基礎(chǔ),只有具有 ToM 能力,人們才能參與復(fù)雜的社會交流,并預(yù)測他人的行動或反應(yīng)。

如果 AI 學(xué)不會社會理解、get 不到人類社會交往的種種規(guī)則,也就無法為人類更好地工作,在各種需要推理的任務(wù)中為人類提供有價值的見解。

怎么辦呢?

專家發(fā)現(xiàn),通過一種「上下文學(xué)習(xí)」,就能大大增強 LLM 的推理能力。

對于大于 100B 參數(shù)的語言模型來說,只要輸入特定的 few-shot 任務(wù)演示,模型性能就顯著增強了。

另外,即使在沒有演示的情況下,只要指示模型一步步思考,也會增強它們的推理性能。

為什么這些 prompt 技術(shù)這么管用?目前還沒有一個理論能夠解釋。

大語言模型參賽選手

基于這個背景,約翰斯?霍普金斯大學(xué)的學(xué)者評估了一些語言模型在 ToM 任務(wù)的表現(xiàn),并且探索了它們的表現(xiàn)是否可以通過逐步思考、few-shot 學(xué)習(xí)和思維鏈推理等方法來提高。

參賽選手分別是來自 OpenAI 家族最新的四個 GPT 模型 ——GPT-4 以及 GPT-3.5 的三個變體,Davinci-2、Davinci-3 和 GPT-3.5-Turbo。

· Davinci-2(API 名稱:text-davinci-002)是在人類寫的演示上進(jìn)行監(jiān)督微調(diào)訓(xùn)練的。

· Davinci-3(API 名稱:text-davinci-003)是 Davinci-2 的升級版,它使用近似策略優(yōu)化的人類反饋強化學(xué)習(xí)(RLHF)進(jìn)一步訓(xùn)練。

· GPT-3.5-Turbo(ChatGPT 的原始版本),在人寫的演示和 RLHF 上都進(jìn)行了微調(diào)訓(xùn)練,然后為對話進(jìn)一步優(yōu)化。

· GPT-4 是截至 2023 年 4 月的最新 GPT 模型。關(guān)于 GPT-4 的規(guī)模和訓(xùn)練方法的細(xì)節(jié)很少公布,然而,它似乎經(jīng)歷了更密集的 RLHF 訓(xùn)練,因此與人類意圖更加一致。

實驗設(shè)計:人類與模型大 OK

如何考察這些模型呢?研究者設(shè)計了兩個場景,一個是控制場景,一個是 ToM 場景。

控制場景指的是一個沒有任何 agent 的場景,可以把它稱為「Photo 場景」。

而 ToM 場景,描述了參與某種情況的人的心理狀態(tài)。

這些場景的問題,在難度上幾乎一樣。

人類

首先接受挑戰(zhàn)的,是人類。

對于每個場景,人類參與者都有 18 秒的時間。

隨后,在一個新的屏幕上會出現(xiàn)一個問題,人類參與者通過點擊「是」或「否」來回答。

實驗中,Photo 和 ToM 場景是混合的,并以隨機順序呈現(xiàn)。

舉個例子,Photo 場景的問題如下 ——

情景:「一張地圖顯示了一樓的平面圖。昨天給建筑師發(fā)了一份復(fù)印件,但當(dāng)時廚房的門被遺漏了。今天早上,廚房門才被添加到地圖上。」

問題: 建筑師的復(fù)印件上是否顯示了廚房的門?

ToM 場景的問題如下 ——

情景:「高中舞會那天早上,Sarah 把她的高跟鞋放在裙子下面,然后就去購物了。那天下午,她的姐姐借走了這雙鞋,后來把它們放在了 Sarah 的床下?!?/p>

問題: 當(dāng) Sarah 回來后,她會認(rèn)為她的鞋子在裙子下面嗎?

測試結(jié)果是,人類在 Photo 場景的準(zhǔn)確率為(86%±4%),ToM 場景的準(zhǔn)確率為(87%±4%)。

LLM

因為 LLM 是個概率模型,因此研究者對每個模型 prompt 了 20 次。

問題有 16 個場景,每個重復(fù) 20 次,因此 LLM 總共會被問 320 個問題。怎么定義準(zhǔn)確率呢?就是看正確答案占 320 個問題的比例。

對于高中舞會的問題,如果 LLM 做出如下回答,都算作正確。

示例 1:Sarah 去購物前把鞋子放在裙子下面,但她姐姐借了鞋子后放在了 Sarah 的床底下。Sarah 不知道她姐姐借了她的鞋子,所以她可能會認(rèn)為鞋子還在她的衣服下面。

示例 2:Sarah 去購物前把她的高跟鞋放在裙子下面,但她姐姐借了鞋子,后來把它們放在了 Sarah 的床底下。 所以,Sarah 不知道她姐姐借了又還了鞋子。 因此,答案是:是的,她會認(rèn)為她的鞋子在她的衣服下面。

示例 3:Sarah 可能會認(rèn)為她的鞋子還在她的裙子下面,因為那是她早上放鞋的地方。

示例 4:Sarah 去購物前把她的高跟鞋放在裙子下面,這樣她就知道她把鞋子放在哪里了。 她姐姐借了這雙鞋,后來把它們放在 Sarah 的床底下,但 Sarah 還不知道。 所以,答案是:是的,Sarah 會認(rèn)為她的鞋子在衣服下面,除非她發(fā)現(xiàn)不是這樣。

示例 5:早上,Sarah 將她的高跟鞋放在裙子下面。 后來,她姐姐借了這雙鞋,把它們放在 Sarah 的床底下。 因此,當(dāng) Sarah 回來后,她可能會認(rèn)為她的鞋子還在她的衣服下面,但實際上它們在她的床底下。

示例 6:基于這種情況,尚不清楚 Sarah 在回來時是否會認(rèn)為她的鞋子在裙子下面。 這要看她姐姐有沒有跟她說借過鞋,并且放在床底下了。

如果 LLM 做出以下回答,則被判定為錯誤。

示例 1:Sarah 早上把鞋子放在裙子下面,然后去購物。 她姐姐借了鞋子,把它們放在 Sarah 的床底下。 所以,Sarah 不知道她的鞋子在床下面。 所以,答案是:不,Sarah 不認(rèn)為她的鞋子在她的衣服下面。

示例 2:不,Sarah 不認(rèn)為她的鞋子在她的衣服下面。

示例 3:首先,Sarah 早上把她的高跟鞋放在裙子下面。 然后,她姐姐借了這雙鞋,后來把它們放在了 Sarah 的床底下。 因此,Sarah 不會認(rèn)為她的鞋子在衣服下面,因為她姐姐動過了。

示例 4:早上,Sarah 將她的高跟鞋放在裙子下面,然后去購物了。 這意味著,當(dāng)她回到家時,她并沒有檢查鞋子是否還在衣服下面。 后來,她姐姐借了這雙鞋,把它們放在 Sarah 的床底下。 因此,Sarah 不能認(rèn)為她的鞋子是在裙子下面,因為它們被她姐姐動過了。

示例 5:這個場景中沒有具體說明 Sarah 是否認(rèn)為她的鞋子在衣服下面。

示例 6:Sarah 早上把她的高跟鞋放在裙子下面,然后她去購物了。 她姐姐后來借了這雙鞋,把它們放在 Sarah 的床底下。 根據(jù)這些信息,尚不清楚 Sarah 在準(zhǔn)備跳舞時會不會認(rèn)為她的鞋子還在裙子下面。

為了衡量上下文學(xué)習(xí)(ICL)對 ToM 表現(xiàn)的效果,研究者采用了四種類型的 prompt。

Zero-Shot(無 ICL)

Zero-Shot+Step-by-Step Thinking

Two-Shot 思維鏈推理

Two-Shot 思維鏈推理 + Step-by-Step Thinking

實驗結(jié)果

zero-shot 基線

首先,作者比較了模型在 Photo 和 ToM 場景中的 zero-shot 性能。

在 Photo 場景下,模型的準(zhǔn)確率會隨著使用時間的延長而逐漸提高(A)。其中 Davinci-2 的表現(xiàn)最差,GPT-4 的表現(xiàn)最好。

與 Photo 理解相反,ToM 問題的準(zhǔn)確性并沒有隨著模型的重復(fù)使用而單調(diào)地提高(B)。但這個結(jié)果并不意味著「分?jǐn)?shù)」低的模型推理性能更差。

比如,GPT-3.5 Turbo 在信息不足的時候,就更加傾向于給出含糊不清的回復(fù)。但 GPT-4 就不會出現(xiàn)這樣的問題,其 ToM 準(zhǔn)確性也明顯高于其他所有模型。

prompt 加持之后

作者發(fā)現(xiàn),利用修改后的提示進(jìn)行上下文學(xué)習(xí)之后,所有在 Davinci-2 之后發(fā)布的 GPT 模型,都會有明顯的提升。

首先,是最經(jīng)典的讓模型一步一步地思考。

結(jié)果顯示,這種 step-by-step 思維提高了 Davinci-3、GPT-3.5-Turbo 和 GPT-4 的表現(xiàn),但沒有提高 Davinci-2 的準(zhǔn)確性。

其次,是采用 Two-shot 思維鏈(CoT)進(jìn)行推理。

結(jié)果顯示,Two-shot CoT 提高了所有用 RLHF 訓(xùn)練的模型(除 Davinci-2 以外)的準(zhǔn)確性。

對于 GPT-3.5-Turbo,Two-shot CoT 提示明顯提高了模型的性能,并且比一步一步思考更加有效。對于 Davinci-3 和 GPT-4 來說,用 Two-shot CoT 帶來的提升相對有限。

最后,同時使用 Two-shot CoT 推理和一步一步地思考。

結(jié)果顯示,所有 RLHF 訓(xùn)練的模型的 ToM 準(zhǔn)確性都有明顯提高:Davinci-3 達(dá)到了 83%(±6%)的 ToM 準(zhǔn)確性,GPT-3.5-Turbo 達(dá)到了 91%(±5%),而 GPT-4 達(dá)到了 100% 的最高準(zhǔn)確性。

而在這些情況下,人類的表現(xiàn)為 87%(±4%)。

在實驗中,研究者注意到這樣一個問題:LLM ToM 測試成績的提高,是因為從 prompt 中復(fù)制了推理步驟的原因嗎?

為此,他們嘗試用推理和照片示例進(jìn)行 prompt,但這些上下文示例中的推理模式,和 ToM 場景中的推理模式并不一樣。

即便如此,模型在 ToM 場景上的性能也提升了。

由此,研究者得出結(jié)論,prompt 能夠提升 ToM 的性能,并不僅僅是因為過度擬合了 CoT 示例中顯示的特定推理步驟集。

相反,CoT 示例似乎調(diào)用了一種涉及分步推理的輸出模式,是因為這個原因,才提高了模型對一系列任務(wù)的準(zhǔn)確性。

各類 CoT 實例對 ToM 性能的影響

LLM 還會給人類很多驚喜

在實驗中,研究者發(fā)現(xiàn)了一些非常有意思的現(xiàn)象。

1. 除了 davincin-2 之外,所有模型都能夠利用修改后的 prompt,來獲得更高的 ToM 準(zhǔn)確率。

而且,當(dāng) prompt 同時結(jié)合思維鏈推理和 Think Step-by-Step,而不是單獨使用兩者時,模型表現(xiàn)出了最大的準(zhǔn)確性提升。

2. Davinci-2 是唯一一個沒有通過 RLHF 微調(diào)的模型,也是唯一一個沒有通過 prompt 而提高 ToM 性能的模型。這表明,有可能正是 RLHF,使得模型能夠在這種設(shè)置中利用上下文提示。

3. LLM 可能具有執(zhí)行 ToM 推理的能力,但在沒有適當(dāng)?shù)纳舷挛幕?prompt 的情況下,它們無法表現(xiàn)出這種能力。而在思維鏈和逐步提示的幫助下,davincin-3 和 GPT-3.5-Turbo,都有了高于 GPT-4 零樣本 ToM 精度的表現(xiàn)。

另外,此前就有許多學(xué)者對于這種評估 LLM 推理能力的指標(biāo)有過異議。

因為這些研究主要依賴于單詞補全或多項選擇題來衡量大模型的能力,然而這種評估方法可能無法捕捉到 LLM 所能進(jìn)行的 ToM 推理的復(fù)雜性。ToM 推理是一種復(fù)雜的行為,即使由人類推理,也可能涉及多個步驟。

因此,在應(yīng)對任務(wù)時,LLM 可能會從產(chǎn)生較長的答案中受益。

原因有兩個:首先,當(dāng)模型輸出較長時,我們可以更公平地評估它。LLM 有時會生成「糾正」,然后額外提到其他可能性,這些可能性會導(dǎo)致它得出一個不確定的總結(jié)。另外,模型可能對某種情況的潛在結(jié)果有一定程度的信息,但這可能不足以讓它得出正確的結(jié)論。

其次,當(dāng)給模型機會和線索,讓它們系統(tǒng)性地一步一步反應(yīng)時,LLM 可能會解鎖新的推理能力,或者讓推理能力增強。

最后,研究者也總結(jié)了工作中的一些不足。

比如,在 GPT-3.5 模型中,有時推理是正確的,但模型無法整合這種推理來得出正確的結(jié)論。所以未來的研究應(yīng)該擴(kuò)展對方法 (如 RLHF) 的研究,幫助 LLM 在給定先驗推理步驟的情況下,得出正確結(jié)論。

另外,在目前的研究中,并沒有定量分析每個模型的失效模式。每個模型如何失敗?為什么失?。窟@個過程中的細(xì)節(jié),都需要更多的探究和理解。

還有,研究數(shù)據(jù)并沒有談到 LLM 是否擁有與心理狀態(tài)的結(jié)構(gòu)化邏輯模型相對應(yīng)的「心理能力」。但數(shù)據(jù)確實表明,向 LLM 詢問 ToM 的問題時,如果尋求一個簡單的是 / 否的答案,不會有成果。

好在,這些結(jié)果表明,LLM 的行為是高度復(fù)雜和上下文敏感的,也向我們展示了,該如何在某些形式的社會推理中幫助 LLM。

所以,我們需要通過細(xì)致的調(diào)查來表征大模型的認(rèn)知能力,而不是條件反射般地應(yīng)用現(xiàn)有的認(rèn)知本體論。

總之,隨著 AI 變得越來越強大,人類也需要拓展自己的想象力,去認(rèn)識它們的能力和工作方式。

參考資料:

  • https://arxiv.org/abs/2304.11490

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知