新智元報道
編輯:Mindy 潤
【新智元導讀】圣達菲研究所的科研人員用非常嚴謹?shù)亩垦芯糠椒ǎ瑴y試出了 GPT-4 在推理和抽象方面與人類水平還有較大差距。要想從 GPT-4 的水平發(fā)展出 AGI,還任重道遠!
GPT-4,可能是目前最強大的通用語言大模型。一經發(fā)布,除了感嘆它在各種任務上的出色表現(xiàn)之外,大家也紛紛提出疑問:GPT-4 是 AGI 嗎?他真的預示了 AI 取代人類那一天的到來嗎?
推特上也有一眾網友發(fā)起了投票:
其中,反對的觀點主要在于:
- 有限的推理能力:GPT-4 被詬病最多的就是不能執(zhí)行「反向推理」,而且難以形成對世界的抽象模型進行估計。
- 任務特定的泛化: 雖然 GPT-4 可以在形式上進行泛化,但在跨任務的目標方面可能會遇到困難。
那到底 GPT-4 的推理能力和抽象能力和人類相比,有多大的差距,大家的這種感性似乎一直沒有定量的研究作為支撐。
而最近圣達菲研究所的科研人員,系統(tǒng)性地對比了人類和 GPT-4 在推理和抽象泛化方面的差距。
論文鏈接:https://arxiv.org/ abs / 2311.09247
研究人員在 GPT-4 的抽象推理能力方面,通過 ConceptARC 基準測試評估了 GPT-4 文本版和多模態(tài)版的表現(xiàn)。結果說明,GPT-4 仍與人類有較大差距。
ConceptARC 是如何測試的?
ConceptARC 基于 ARC 之上,ARC 是一組 1000 個手動創(chuàng)建的類比謎題(任務),每個謎題包含一小部分(通常是 2-4 個)在網格上進行變換的演示,以及一個「測試輸入」網格。
挑戰(zhàn)者的任務是歸納出演示的基礎抽象規(guī)則,并將該規(guī)則應用于測試輸入,生成一個經過變換的網格。
如下圖,通過觀察演示的規(guī)則,挑戰(zhàn)者需要生成一個新的網格。
ARC 設計的目的在于,它強調了捕捉抽象推理的核心:從少量示例中歸納出普遍規(guī)律或模式,并能夠靈活地應用于新的、以前未見過的情況;而弱化了語言或學到的符號知識,以避免依賴于先前訓練數(shù)據(jù)的「近似檢索」和模式匹配,這可能是在基于語言的推理任務上取得表面成功的原因。
而 ConceptARC 在此基礎上,改進為 480 個任務,這些任務被組織成特定核心空間和語義概念的系統(tǒng)變化,如 Top 和 Bottom(上和下)、Inside 和 Outside、Center(里面,外面,中間),以及 Same 和 Different(相同,不同)。每個任務以不同的方式實例化該概念,并具有不同程度的抽象性。
在這種改動下,概念更加抽象,也就是說對人類來說更加容易,結果也更能說明 GPT-4 和人類在抽象推理方面的能力對比。
測試結果,GPT-4 比起人類還有很大差距
研究人員分別對純文本的 GPT-4 和多模態(tài)的 GPT-4 進行了測試。
對于純文本的 GPT-4 來說,研究人員使用更加表達豐富的提示對 GPT-4 的純文本版本進行評估,該提示包括說明和已解決任務的示例,如果 GPT-4 回答錯誤,會要求它提供不同的答案,最多嘗試三次。
但在不同的溫度設置下(溫度是一個可調節(jié)的參數(shù),用于調整生成的文本的多樣性和不確定性。溫度越高,生成的文本更加隨機和多樣,可能包含更多的錯別字和不確定性。),對于完整的 480 個任務,GPT-4 的準確率表現(xiàn)都遠遠不如人類,如下圖所示。
而在多模態(tài)實驗中,研究人員對 GPT-4V 進行了評估,在最簡單的 ConceptARC 任務的視覺版本上(即僅僅 48 個任務),給予它與第一組實驗中類似的提示,但使用圖像而不是文本來表示任務。
結果如下圖所示,將極簡的任務作為圖像提供給多模態(tài) GPT-4 的性能甚至明顯低于僅文本情況。
這不難得出結論,GPT-4,可能是目前最強大的通用 LLM,仍然無法穩(wěn)健地形成抽象并推理關于基本核心概念的內容,而這些概念出現(xiàn)在其訓練數(shù)據(jù)中之前未見過的上下文中。
網友分析
有位大牛網友對于 GPT-4 在 ConceptARC 上的表現(xiàn),發(fā)了足足 5 條評論。其中一條主要原因解釋道:
基于 Transformer 的大型語言模型的基準測試犯了一個嚴重錯誤,測試通常通過提供簡短的描述來引導模型產生答案,但實際上這些模型并非僅僅設計用于生成下一個最可能的標記。
如果在引導模型時沒有正確的命題邏輯來引導和鎖定相關概念,模型可能會陷入重新生成訓練數(shù)據(jù)或提供與邏輯不完全發(fā)展或正確錨定的概念相關的最接近答案的錯誤模式。
也就是說,如果大模型設計的解決問題的方式是上圖的話,那實際需要解決問題可能是下圖。
研究人員說,對于提升 GPT-4 和 GPT-4V 在抽象推理能力的下一步,可能嘗試通過其他提示或任務表示方法實現(xiàn)。
只能說,對于大模型真的能完全能達到人類水平,還是任重而道遠啊。
參考資料:
https://arxiv.org/abs/2311.09247
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。