設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

菲爾茲獎得主親測 GPT-4o,經(jīng)典過河難題破解失敗

新智元 2024/6/30 14:15:14 責(zé)編:遠(yuǎn)洋

編輯:桃子喬楊

【新智元導(dǎo)讀】LLM 能否解決「狼-山羊-卷心菜」經(jīng)典過河難題?最近,菲爾茲獎得主 Timothy Gowers 分享了實測 GPT-4o 的過程,模型在最簡單的題目上竟然做錯了,甚至網(wǎng)友們發(fā)現(xiàn),就連 Claude 3.5 也無法幸免。

在經(jīng)典的「狼-山羊-卷心菜」過河問題上,如今所有的 LLM 都失敗了!

幾天前,菲爾茲獎得主、劍橋大學(xué)研究主任 Timothy Gowers 直接拿 GPT-4o 開刀,去解決動物過河難題。

在此,他給出了一個新的基準(zhǔn) —— 廢話比率(crapness ratio),即 LLM 給出的總答案與正確答案之間的比率。

經(jīng)過測試,Gowers 發(fā)現(xiàn)大模型的廢話比率可以達(dá)到 5 倍。

一開始,他先給出了一個農(nóng)民帶 2 只雞過河,一只船只能容納一個人和 2 個動物,那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少?

別說成年人了,就拿低幼小孩子來說,一聽完題目,就立馬給出正確的答案。

搞笑的是,ChatGPT 的回答分解了 5 個步驟,讓人看著極其愚蠢荒謬。

第一次渡河:農(nóng)夫帶著兩只雞一起過河;現(xiàn)狀:農(nóng)夫和兩只雞在河對岸。

第二次渡河:農(nóng)夫把兩只雞留在對岸,然后獨自返回;現(xiàn)狀:農(nóng)夫在起始岸,兩只雞在對岸。

第三次渡河:農(nóng)夫帶一只雞過河;現(xiàn)狀:農(nóng)夫和一只雞在對岸,一只雞在起始岸。

第四次渡河:農(nóng)夫把雞留在對岸,獨自返回;現(xiàn)狀:農(nóng)夫在起始岸,一只雞在對岸。

第五次渡河:農(nóng)夫帶著第二只雞過河。現(xiàn)狀:農(nóng)夫和兩只雞都在對岸。

因此,農(nóng)夫帶兩只雞過河所需的最少次數(shù)是 5 次。

這里,ChatGPT 必須在邏輯上把「農(nóng)民」和人聯(lián)系起來,把「雞」和動物聯(lián)系起來,然后規(guī)劃出最佳的過河次數(shù)。

對此,LeCun 表示,大模型全新基準(zhǔn) —— 廢話比率。

當(dāng)然,也有為 LLM 打抱不平的網(wǎng)友。

他表示,你可以對任何人做類似的事情。如果你愿意,可以讓任何一個人不及格。LLM 與人類的智商相去甚遠(yuǎn),但把它們放在極端的測試中不會很好地評估它們。

還有人勸誡道,朋友們,現(xiàn)在辭職太早了。

加大難度:100、1000 只雞如何?

為了得到較大的比率,Gowers 這次給出了 100 只雞過河的問題。

這里雖沒有放出具體的解題過程,不過,Gowers 表示,GPT-4o 竟答對了。

接下來,再次加大難度,一個農(nóng)民帶 1000 只雞過河,模型表現(xiàn)怎么樣?

提示是,1000 只雞在河的一邊,農(nóng)夫需要將 999 只雞移到河的另一邊,留下 1 只雞在起點。

然而,他的船上有一個洞,所以在每次渡河開始時,他可以帶上十只雞。但到渡河快結(jié)束時,船里進(jìn)了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。

為了實現(xiàn)目標(biāo)而不讓任何雞溺亡,農(nóng)民最少需要渡河幾次?

Gowers 表示,這次的廢話比率是 125 倍。

隨后,Gowers 展示了相當(dāng)長的例子,卻發(fā)現(xiàn) ChatGPT 的答案比正確答案呈指數(shù)級增長。(然而,這更多與它的數(shù)學(xué)能力有關(guān),所以有點取巧。)

在網(wǎng)友測試的一個案例中,即使被告知農(nóng)夫根本不需要過河,GPT-4o 仍提出了一個 9 次渡河的復(fù)雜解決方案。

而且它忽視了重要的約束條件,比如不能讓雞單獨和狼在一起,這本來是完全可行的,因為農(nóng)夫根本不需要過河。

Claude 3.5 也失敗了

在接下來的討論中,網(wǎng)友用 Claude 3.5 進(jìn)行了測試,得到了 3 倍的比率。

Gowers 稱,這算是輸了。

另一個測試題中,「一個農(nóng)夫帶著一只羊站在河邊。河上有一條船,可以容納一個人和一只羊。農(nóng)夫怎樣才能用最少的船把自己和羊送到河對岸?」

Claude 3.5 依舊答錯了。

LeCun 在此嘲諷大模型一番,大模型竟可以推理...?

問題在于,LLM 沒有常識,不理解現(xiàn)實世界,也不會規(guī)劃和推理。

LLM 行不行,就看提示了

一位網(wǎng)友分析總結(jié)了,以上 LLM 失敗的原因。他表示,LLM 本身就是個「啞巴」,所以需要很好的提示。上面的提示方式提供了太多不必要的信息,使得 token 預(yù)測變得更加困難。如果給出更清晰的提示,LLM 就能提供更清晰的解決方案。所以,不用擔(dān)心 AGI 會很快出現(xiàn)。

另一位網(wǎng)友同樣發(fā)現(xiàn),如果用「動物」代替「雞」,那么 Claude 3.5 Sonnet 一下子就解決了這個問題。

對于「狼-山羊-卷心菜」問題也是如此,需要用「通用名稱」替換「實體名稱」。

如下是另一個名詞替換的例子。

或許是模型的訓(xùn)練數(shù)據(jù)誤導(dǎo)了自己,讓問題變得過于復(fù)雜。

對于雞的問題,在相同的提示下一遍又一遍地重復(fù)問題會讓它更好地理解它。網(wǎng)友重復(fù)了 5 次,試了 15 次才得到正確的答案。

菲爾茲獎得主發(fā)現(xiàn) LLM 數(shù)學(xué)缺陷

值得一提的是,發(fā)出渡河問題帖子的這位 Timothy Gowers 不僅是劍橋大學(xué)三一學(xué)院的教授。早在 1998 年,他就因為將泛函分析和組合學(xué)聯(lián)系在一起的研究獲得了菲爾茲獎。

近些年來,他的研究工作開始關(guān)注 LLM 在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

去年他與別人合著的一篇論文就指出了當(dāng)今 LLM 評估數(shù)學(xué)任務(wù)的缺陷。

論文地址:https://www.pnas.org/ doi / 10.1073 / pnas.2318124121

文章表示,目前評估 LLM 的標(biāo)準(zhǔn)方法是依賴靜態(tài)的輸入-輸出對,這與人類使用 LLM 的動態(tài)、交互式情境存在較大的差異。

靜態(tài)的評估限制了我們理解 LLM 的工作方式。為此,作者構(gòu)建了交互式評估平臺 CheckMate 和評分?jǐn)?shù)據(jù)集 MathConverse。

在對 GPT-4、InstructGPT 和 ChatGPT 嘗試進(jìn)行評估的過程中,他們果然探測到了 LLM 犯數(shù)學(xué)錯誤的一個可能原因 —— 模型似乎傾向于依賴記憶解題。

在數(shù)學(xué)領(lǐng)域,記住概念和定義是必不可少的,但具體問題的解決更需要一種通用、可概括的理解。

這對于人均做過奧數(shù)題的中國人來說并不難理解。除非考試出原題,單純把例題背下來沒有任何益處,有時候還會誤導(dǎo)思路、適得其反。

作者提出,雖然沒有辦法看到 GPT-4 的訓(xùn)練數(shù)據(jù),但是從行為來看,強烈懷疑模型是「死記硬背」了看似合理的示例或者解題模式,因而給出了錯誤答案。

他們也發(fā)現(xiàn),在 LLM 對數(shù)學(xué)問題的回答中,人類感知到的「有用性」和答案本身的「正確性」,這兩個指標(biāo)高度相關(guān),皮爾遜相關(guān)系數(shù)高達(dá) 0.83。

也許這就是為什么 Gowers 在推文中會用「廢話比率」來調(diào)侃 LLM。

其他測試

事實上,大模型被詬病推理能力已經(jīng)不是一天兩天了。

就在幾周前,研究人員發(fā)現(xiàn),能用一句話描述的簡單推理問題,就能讓各路大模型以花樣百出的方式翻車。

論文地址:https://arxiv.org/ abs / 2406.02061

「愛麗絲有 M 個兄弟,N 個姐妹,請問愛麗絲的兄弟有幾個姐妹?」

如果你的答案是 N+1,那么恭喜你。你的推理能力已經(jīng)超越了當(dāng)今的幾乎所有 LLM。

推特網(wǎng)友還發(fā)現(xiàn)了另一個絆倒幾乎所有 LLM 的簡單問題:(劇透,只有 Claude 3.5 Sonnet 答對了)

「你有一個 3 加侖的水壺和一個 5 加侖的水壺,還有無限量的水。如何準(zhǔn)確測量 5 加侖的水?」

他總結(jié)道,如果想要羞辱 LLM 的推理能力,只需要挑一些流行的推理 / 邏輯謎題,稍微修改一下語言表述,你就能搬起小板凳狂笑了。

OpenAI CTO 曾放話說 GPT-4 已經(jīng)達(dá)到了「聰明高中生」的智力水平,下一代模型要達(dá)到博士水平… 這番言論放在眾多 LLM 失敗案例面前顯得格外諷刺。

我們之所以會如此震驚于 LLM 在簡單的推理任務(wù)上翻車,不僅僅是因為與語言任務(wù)的慘烈對比,更是因為這與各種基準(zhǔn)測試的結(jié)果大相徑庭。

從下面這張圖中可以看到,LLM 在各種基準(zhǔn)測試上的飽和速度越來越快。

幾乎是每提出一個新的測試集,模型就能迅速達(dá)到人類水平(圖中 0.0 邊界)甚至超越,其中不乏非常有挑戰(zhàn)性的邏輯推理任務(wù),比如需要復(fù)雜多步驟推理的 BBH(Big-Bench Hard)和數(shù)學(xué)應(yīng)用題測試集 GSK8k。

其中的 HellaSwag 測試集,由華盛頓大學(xué)和 Allen AI 在 2019 年推出,專門針對人類擅長但 LLM 一塌糊涂的常識推理問題。

剛剛發(fā)布時,人類在 HellaSwag 上能達(dá)到超過 95% 的準(zhǔn)確率,SOTA 分?jǐn)?shù)卻始終難以超過 48%。

但這種情況并沒有持續(xù)很久。各個維度的分?jǐn)?shù)持續(xù)猛漲,2023 年 3 月,GPT-4 在 HellaSwag 上的各項得分就逼近,甚至超過了人類水平。

https://rowanzellers.com/hellaswag/

為什么在基準(zhǔn)測試上如此驚艷的模型,一遇到現(xiàn)實的數(shù)學(xué)問題就翻車?由于我們對 LLM 的工作原理知之甚少,這個問題的答案也是眾說紛紜。

目前的大部分研究依舊假設(shè) LLM 有這方面的潛力,因此從調(diào)整模型架構(gòu)、增強數(shù)據(jù)、改進(jìn)訓(xùn)練或微調(diào)方法等方面「多管齊下」,試圖解鎖模型在非語言任務(wù)上的能力。

比如上面那個提出用「裝水問題」測試 LLM 的 Rolf 小哥就表示,根本原因是模型的過度訓(xùn)練(也可以理解為過擬合),需要引入多樣化的推理任務(wù)。

也有人從基準(zhǔn)測試的角度出發(fā),認(rèn)為是數(shù)學(xué)、推理等任務(wù)的測試集設(shè)計得不夠好,

Hacker News 論壇上曾有數(shù)學(xué)家發(fā)文,表示 GSK8k 這種小學(xué)數(shù)學(xué)應(yīng)用題級別的測試根本不能衡量 LLM 的實際數(shù)學(xué)能力。

此外,測試數(shù)據(jù)泄露也是不可忽視的因素。HellaSwag 或者 GSK8k 這樣的公開測試集一旦發(fā)布,很難不流入互聯(lián)網(wǎng)(Reddit 討論、論文、博客文章等等),進(jìn)而被抓取并納入到 LLM 的訓(xùn)練數(shù)據(jù)中。

Jason Wei 在上個月發(fā)表的討論 LLM 基準(zhǔn)測試的博客就專門討論了這個問題。

文章地址:https://www.jasonwei.net/blog/evals

最極端的一派當(dāng)屬 LeCun 等人了,他們堅稱自回歸 LLM 發(fā)展下去沒有任何出路。

現(xiàn)在的模型沒法推理、規(guī)劃,不能理解物理世界也沒有持久記憶,智能水平還趕不上一只貓,回答不了簡單的邏輯問題實屬意料之中。

LLM 的未來究竟走向何處?最大的未知變量也許就在于,我們是否還能發(fā)現(xiàn)類似思維鏈(CoT)這種解鎖模型性能的「大殺器」了。

參考資料:

  • https://the-decoder.com/llms-give-ridiculous-answers-to-a-simple-river-crossing-puzzle/

  • https://www.pnas.org/doi/10.1073/pnas.2318124121

  • https://claude101.com/llm-large-language-model-benchmarks/

本文來自微信公眾號:新智元(ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,GPT4,GPT4o

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知