設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-4 抽象推理 PK 人類差距巨大!多模態(tài)遠(yuǎn)不如純文本,AGI 火花難以獨(dú)立燃燒

新智元 2024/1/1 23:18:53 責(zé)編:遠(yuǎn)洋

  新智元報(bào)道  

編輯:Mindy 潤

【新智元導(dǎo)讀】圣達(dá)菲研究所的科研人員用非常嚴(yán)謹(jǐn)?shù)亩垦芯糠椒ǎ瑴y試出了 GPT-4 在推理和抽象方面與人類水平還有較大差距。要想從 GPT-4 的水平發(fā)展出 AGI,還任重道遠(yuǎn)!

GPT-4,可能是目前最強(qiáng)大的通用語言大模型。一經(jīng)發(fā)布,除了感嘆它在各種任務(wù)上的出色表現(xiàn)之外,大家也紛紛提出疑問:GPT-4 是 AGI 嗎?他真的預(yù)示了 AI 取代人類那一天的到來嗎?

推特上也有一眾網(wǎng)友發(fā)起了投票:

其中,反對(duì)的觀點(diǎn)主要在于:

- 有限的推理能力:GPT-4 被詬病最多的就是不能執(zhí)行「反向推理」,而且難以形成對(duì)世界的抽象模型進(jìn)行估計(jì)。

- 任務(wù)特定的泛化: 雖然 GPT-4 可以在形式上進(jìn)行泛化,但在跨任務(wù)的目標(biāo)方面可能會(huì)遇到困難。

那到底 GPT-4 的推理能力和抽象能力和人類相比,有多大的差距,大家的這種感性似乎一直沒有定量的研究作為支撐。

而最近圣達(dá)菲研究所的科研人員,系統(tǒng)性地對(duì)比了人類和 GPT-4 在推理和抽象泛化方面的差距。

論文鏈接:https://arxiv.org/ abs / 2311.09247

研究人員在 GPT-4 的抽象推理能力方面,通過 ConceptARC 基準(zhǔn)測試評(píng)估了 GPT-4 文本版和多模態(tài)版的表現(xiàn)。結(jié)果說明,GPT-4 仍與人類有較大差距。

ConceptARC 是如何測試的?

ConceptARC 基于 ARC 之上,ARC 是一組 1000 個(gè)手動(dòng)創(chuàng)建的類比謎題(任務(wù)),每個(gè)謎題包含一小部分(通常是 2-4 個(gè))在網(wǎng)格上進(jìn)行變換的演示,以及一個(gè)「測試輸入」網(wǎng)格。

挑戰(zhàn)者的任務(wù)是歸納出演示的基礎(chǔ)抽象規(guī)則,并將該規(guī)則應(yīng)用于測試輸入,生成一個(gè)經(jīng)過變換的網(wǎng)格。

如下圖,通過觀察演示的規(guī)則,挑戰(zhàn)者需要生成一個(gè)新的網(wǎng)格。

ARC 設(shè)計(jì)的目的在于,它強(qiáng)調(diào)了捕捉抽象推理的核心:從少量示例中歸納出普遍規(guī)律或模式,并能夠靈活地應(yīng)用于新的、以前未見過的情況;而弱化了語言或?qū)W到的符號(hào)知識(shí),以避免依賴于先前訓(xùn)練數(shù)據(jù)的「近似檢索」和模式匹配,這可能是在基于語言的推理任務(wù)上取得表面成功的原因。

而 ConceptARC 在此基礎(chǔ)上,改進(jìn)為 480 個(gè)任務(wù),這些任務(wù)被組織成特定核心空間和語義概念的系統(tǒng)變化,如 Top 和 Bottom(上和下)、Inside 和 Outside、Center(里面,外面,中間),以及 Same 和 Different(相同,不同)。每個(gè)任務(wù)以不同的方式實(shí)例化該概念,并具有不同程度的抽象性。

在這種改動(dòng)下,概念更加抽象,也就是說對(duì)人類來說更加容易,結(jié)果也更能說明 GPT-4 和人類在抽象推理方面的能力對(duì)比。

測試結(jié)果,GPT-4 比起人類還有很大差距

研究人員分別對(duì)純文本的 GPT-4 和多模態(tài)的 GPT-4 進(jìn)行了測試。

對(duì)于純文本的 GPT-4 來說,研究人員使用更加表達(dá)豐富的提示對(duì) GPT-4 的純文本版本進(jìn)行評(píng)估,該提示包括說明和已解決任務(wù)的示例,如果 GPT-4 回答錯(cuò)誤,會(huì)要求它提供不同的答案,最多嘗試三次。

但在不同的溫度設(shè)置下(溫度是一個(gè)可調(diào)節(jié)的參數(shù),用于調(diào)整生成的文本的多樣性和不確定性。溫度越高,生成的文本更加隨機(jī)和多樣,可能包含更多的錯(cuò)別字和不確定性。),對(duì)于完整的 480 個(gè)任務(wù),GPT-4 的準(zhǔn)確率表現(xiàn)都遠(yuǎn)遠(yuǎn)不如人類,如下圖所示。

而在多模態(tài)實(shí)驗(yàn)中,研究人員對(duì) GPT-4V 進(jìn)行了評(píng)估,在最簡單的 ConceptARC 任務(wù)的視覺版本上(即僅僅 48 個(gè)任務(wù)),給予它與第一組實(shí)驗(yàn)中類似的提示,但使用圖像而不是文本來表示任務(wù)。

結(jié)果如下圖所示,將極簡的任務(wù)作為圖像提供給多模態(tài) GPT-4 的性能甚至明顯低于僅文本情況。

這不難得出結(jié)論,GPT-4,可能是目前最強(qiáng)大的通用 LLM,仍然無法穩(wěn)健地形成抽象并推理關(guān)于基本核心概念的內(nèi)容,而這些概念出現(xiàn)在其訓(xùn)練數(shù)據(jù)中之前未見過的上下文中。

網(wǎng)友分析

有位大牛網(wǎng)友對(duì)于 GPT-4 在 ConceptARC 上的表現(xiàn),發(fā)了足足 5 條評(píng)論。其中一條主要原因解釋道:

基于 Transformer 的大型語言模型的基準(zhǔn)測試犯了一個(gè)嚴(yán)重錯(cuò)誤,測試通常通過提供簡短的描述來引導(dǎo)模型產(chǎn)生答案,但實(shí)際上這些模型并非僅僅設(shè)計(jì)用于生成下一個(gè)最可能的標(biāo)記。

如果在引導(dǎo)模型時(shí)沒有正確的命題邏輯來引導(dǎo)和鎖定相關(guān)概念,模型可能會(huì)陷入重新生成訓(xùn)練數(shù)據(jù)或提供與邏輯不完全發(fā)展或正確錨定的概念相關(guān)的最接近答案的錯(cuò)誤模式。

也就是說,如果大模型設(shè)計(jì)的解決問題的方式是上圖的話,那實(shí)際需要解決問題可能是下圖。

研究人員說,對(duì)于提升 GPT-4 和 GPT-4V 在抽象推理能力的下一步,可能嘗試通過其他提示或任務(wù)表示方法實(shí)現(xiàn)。

只能說,對(duì)于大模型真的能完全能達(dá)到人類水平,還是任重而道遠(yuǎn)啊。

參考資料:

  • https://arxiv.org/abs/2311.09247

本文來自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GPT4,人工智能大模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知