首頁 > 智能時(shí)代>人工智能

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

新智元 2023/12/17 12:52:39 責(zé)編：遠(yuǎn)洋

評(píng)論：

新智元報(bào)道

編輯：拉燕

【新智元導(dǎo)讀】最近，UC 伯克利的一項(xiàng)研究揭示了 LLM 和小孩子們?cè)谡J(rèn)知上的一項(xiàng)重要差別 —— 創(chuàng)造新的因果結(jié)構(gòu)的能力。

大家有沒有想過一個(gè)問題，LLM 和小朋友們，有什么差別？

你可能會(huì)說，LLM 有那么多訓(xùn)練數(shù)據(jù)集，經(jīng)過了那么多次微調(diào)，還不全方位秒殺小朋友們？

但是，最近 UC 伯克利的一篇論文卻顯示，LLM 和孩童相比，欠缺了一項(xiàng)很重要的能力。

那就是 —— 從經(jīng)驗(yàn)中學(xué)習(xí)因果結(jié)構(gòu)的能力。

當(dāng)然了，研究人員們也并不是一點(diǎn)兒招沒有，RLHF 在某種程度上可以解決這個(gè)問題。但是解決的邏輯，卻和孩子們學(xué)習(xí)完全不同。

LeCun 也是轉(zhuǎn)發(fā)了這篇研究，并配文「那些孩子們可以，LLM 卻做不到的事?！?/p>

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

LLM 究竟擬人嗎

首先，我們知道，關(guān)于大型語言模型和語言與視覺模型的討論，主要集中在這些模型是否是智能體上。

而 UC 伯克利的研究人員則提出了一個(gè)不同的觀點(diǎn)。

他們認(rèn)為，這些 AI 模型是高效和強(qiáng)大的模仿引擎。

接著他們通過測(cè)試這些 AI 模型是否可以發(fā)現(xiàn)新的工具和新穎的因果結(jié)構(gòu)，以及將它們接到指令的反應(yīng)與人類兒童進(jìn)行對(duì)比，來探討 AI 模型能在模仿和創(chuàng)新這方面，啟發(fā)研究人員什么。

不少人表示，這些 LLM 不就是一個(gè)又一個(gè)智能體嘛。圖片、文本，什么都能生成，這多聰明。

甚至，他們還會(huì)在口語表達(dá)中暗示了這種擬人化的夸贊 —— 一「個(gè)」AI，就好像咱們說一個(gè)人一樣。

UC 伯克利的研究人員則認(rèn)為，這么想就錯(cuò)了。

LLM 就像歷史中我們見過的那些技術(shù)，比如書寫、印刷、圖書館、互聯(lián)網(wǎng)，甚至語言本身。

大型語言和視覺模型提供了一種新的方法，讓我們能輕松有效地訪問其他人編寫的大量文本和其他人生成的圖像。

換句話說，這些 AI 系統(tǒng)為文化生產(chǎn)和演化提供了一種新的手段，允許信息在不同群體之間高效傳遞。它們匯總了以前由人類代理生成的大量信息，并從中提取模式。

所以，并不擬人。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

這與介入外部世界，并生成關(guān)于它的信息的感知和行動(dòng)系統(tǒng)形成對(duì)比。換言之，人類的模式。

這里要注意，這種對(duì)比不僅限于感知和行動(dòng)系統(tǒng)本身，還包括科學(xué)或是直觀理論中所體現(xiàn)的因果關(guān)系。它們與外部世界有關(guān)，并對(duì)該世界進(jìn)行預(yù)測(cè)并影響該世界上的行動(dòng)。

同時(shí)，后期來自該外部世界所獲得的新證據(jù)可以從根本上修改以往的因果關(guān)系。

當(dāng)然，這些尋求真理的認(rèn)識(shí)過程也是一些 AI 系統(tǒng)的基礎(chǔ)。例如，強(qiáng)化學(xué)習(xí)系統(tǒng)，特別是基于模型的系統(tǒng)，可以被理解為在世界上采取行動(dòng)以解決類似于逆問題的系統(tǒng)。

它們積累數(shù)據(jù)來構(gòu)建世界的模型，從而實(shí)現(xiàn)廣泛和新穎的泛化。這一點(diǎn)在機(jī)器人領(lǐng)域尤其突出，這些系統(tǒng)與外部世界接觸，改變自身的模型，允許新的行動(dòng)和泛化，雖說程度有限。

類似地，一些 AI 方法也已經(jīng)把因果推斷和理論形成整合到了其學(xué)習(xí)機(jī)制中，以設(shè)計(jì)更像人類的系統(tǒng)。

然而，這些系統(tǒng)與我們往常熟悉的，依賴于大量現(xiàn)有數(shù)據(jù)的、相對(duì)簡單的、大型語言和視覺模型有顯著不同。

尋求真理的認(rèn)識(shí)過程與能夠忠實(shí)傳遞表示（representation）的過程這兩件事一直會(huì)是相抗的，無論這些表示與外部世界之間的關(guān)系如何。這種傳遞對(duì)于語言學(xué)習(xí)和社會(huì)協(xié)調(diào)等能力至關(guān)重要。

目前，研究人員有大量證據(jù)表明，這種忠實(shí)傳遞的機(jī)制在早期發(fā)展中已經(jīng)存在，并在人類認(rèn)知和文化中發(fā)揮著特別重要的作用。

然而，這些機(jī)制也可能與尋求真理的因果推斷和理論形成機(jī)制產(chǎn)生一些微妙的關(guān)系，原因可能有好有壞。

比方說，在「過度模仿」（overimitation）的現(xiàn)象中，人類兒童（和成年人）會(huì)在復(fù)雜的行動(dòng)序列中重現(xiàn)出現(xiàn)過的所有細(xì)節(jié)，即使這些細(xì)節(jié)對(duì)該行動(dòng)的結(jié)果并不具有因果關(guān)系。

過度模仿可能會(huì)增加復(fù)雜行動(dòng)傳遞的忠實(shí)度和效率。但是，這也意味著該傳遞并不根植于受環(huán)境變化所改變的因果理解。同樣也有證據(jù)表明，兒童會(huì)在未經(jīng)批判性思考的情況下接受別人對(duì)外部世界的看法，當(dāng)且僅當(dāng)又遇到另一個(gè)人所有的不同看法時(shí)，兒童才會(huì)改變?cè)械目捶ā?/p>

這點(diǎn)還是蠻有共鳴的，打個(gè)比方就是，孩子們起初是一張白紙，畫什么是什么，有新的認(rèn)知才會(huì)覆蓋原有的色彩。

研究人員認(rèn)為，大型語言模型有力的促進(jìn)了這種類型的傳遞，方式則是總結(jié)，和從現(xiàn)有文本中進(jìn)行泛化。

然而，它們的訓(xùn)練過程中，或是目標(biāo)函數(shù)中，沒有設(shè)計(jì)任何有關(guān)履行感知、因果推斷或理論形成等尋求真理的系統(tǒng)的認(rèn)識(shí)功能。

即使是最先進(jìn)的 LLM，它們的輸出預(yù)測(cè)概率也并不會(huì)區(qū)分認(rèn)識(shí)不確定性（epistemic uncertainty）（這點(diǎn)實(shí)際上與知識(shí)的缺乏有關(guān)，是可以通過更多的訓(xùn)練數(shù)據(jù)來解決的），和偶然不確定性（aleatoric uncertainty）。

這就帶來了「幻覺」的問題。

這種傳達(dá)和客觀真理的對(duì)比，與在人類文化演化中的模仿 / 創(chuàng)新的對(duì)比密切相關(guān)。文化的演化取決于這兩種不同認(rèn)知機(jī)制之間的平衡，而模仿允許知識(shí)或技能從一個(gè)人傳遞到另一個(gè)人；創(chuàng)新則是通過與不斷變化的世界接觸產(chǎn)生新的知識(shí)或技能。

簡而言之，模仿意味著每個(gè)個(gè)體不必創(chuàng)新 —— 他們可以直接利用其他人的認(rèn)知。但如果某些個(gè)體沒有創(chuàng)新的能力，光靠模仿本身將毫無用處。這也就是說，正是創(chuàng)新和模仿的結(jié)合才能實(shí)現(xiàn)文化和技術(shù)的進(jìn)步。

當(dāng)然，模仿和傳輸也可能涉及某些種類的泛化和新穎性。LLM 也會(huì)產(chǎn)生類似的泛化，有時(shí)會(huì)從已知的行動(dòng)中泛化，來產(chǎn)生某種創(chuàng)新。

然而，想要輸出足以應(yīng)對(duì)新問題和新環(huán)境的創(chuàng)新，則需要 LLM 超越獲取的信息，和從這些給定信息中推理出的東西。這些推理可能從現(xiàn)有的因果模型出發(fā)，生成與之前觀察到的因果非常不同的新因果，或者可能激發(fā)對(duì)外部世界的新的探索。

從人工智能的角度來看，模仿涉及一種插值泛化，即在已知的范圍內(nèi)，技能和知識(shí)在各種背景下得以利用、模擬和分享。

而另一方面，創(chuàng)新則反映了一種更為外推性的，或超分布（out-of-distribution）的泛化。

不過在任何給定情況下，想要確定哪種認(rèn)知機(jī)制產(chǎn)生了特定類型的表示或行為、知識(shí)或技能，這件事其實(shí)并不容易。

如果只受到內(nèi)部語言統(tǒng)計(jì)數(shù)據(jù)培訓(xùn)的 LLM 可以復(fù)制特定的能力，例如在回應(yīng) prompt 時(shí)生成語法正確的文本，這表明這類能力可以通過模仿來發(fā)展。但如果不行，那就意味著這些能力可能需要?jiǎng)?chuàng)新，即從外部世界中提取知識(shí)。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

因此，LLM 和大型的視覺模型為研究人員提供了一個(gè)機(jī)會(huì)，可以發(fā)現(xiàn)哪種能力需要模仿，哪種能力又需要?jiǎng)?chuàng)新。這也是認(rèn)知科學(xué)長期以來的一個(gè)問題。

LLM V.S 兒童

研究人員將受過大量文本數(shù)據(jù)或文本和圖像數(shù)據(jù)訓(xùn)練的 LLM 模型的性能與兒童的性能（這么說好奇怪，哈哈）進(jìn)行了對(duì)比。

研究人員發(fā)現(xiàn)，LLM 的模仿可能在重要方面與兒童的模仿行為有不同。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

對(duì)兒童而言，現(xiàn)有的文獻(xiàn)中存在很多關(guān)于我們童年時(shí)期的模仿的爭論，究竟有多少是忠實(shí)的文化傳遞（比如：過度模仿）以及有多少是由更廣泛的尋求真理的過程所驅(qū)使的，比如理解他人的目標(biāo)和意圖。

而 LLM 究竟能否創(chuàng)新，取決于能否創(chuàng)新工具（new tools）。

人可以發(fā)現(xiàn)并創(chuàng)造全新的各種工具，因此工具是解決模仿與創(chuàng)新之間的平衡問題的最佳例證之一。而 AI 和機(jī)器人領(lǐng)域的技術(shù)，如「行為克隆」，使用了類似的方法。

然而，需要再次強(qiáng)調(diào)的是，模仿，和以插值方式使用現(xiàn)有工具的能力，取決于以外推方式發(fā)現(xiàn)新工具的平行能力。

工具創(chuàng)新是人類生活不可或缺的一部分，并且在各種非人類動(dòng)物中也觀察到，因此工具創(chuàng)新通常被認(rèn)為是生物系統(tǒng)智力的一個(gè)顯著標(biāo)志。

然后，工具使用也是理解 LLM 和兒童的模仿和創(chuàng)新的一個(gè)重要比較點(diǎn)。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

LLM 和人類都可以對(duì)對(duì)象的信息進(jìn)行編碼，但它們?cè)诠ぞ吣７屡c工具創(chuàng)新方面的能力可能會(huì)有所不同。研究人員的預(yù)測(cè)這些模型可能很好地捕捉到所熟悉的工具使用方法（比如錘子）。

然而，這些系統(tǒng)在涉及不常見、或是新穎的工具時(shí)就會(huì)很難產(chǎn)生正確的反饋，原因就在于后者依賴于發(fā)現(xiàn)和使用新的因果聯(lián)系、功能類比和適用性。

然而，兒童是否就能夠自行進(jìn)行這種創(chuàng)新呢？需不需要明確的指導(dǎo)和經(jīng)驗(yàn)？

事實(shí)上是，從零開始構(gòu)建一個(gè)新工具，對(duì)于兒童來說也是一項(xiàng)困難的任務(wù)。不過兒童可能會(huì)更容易地識(shí)別日常物品中的新功能，并在沒有典型工具的情況下選擇適當(dāng)?shù)奶娲穪斫鉀Q各種任務(wù)。

在研究中，研究人員研究了人類兒童和成年人是否能夠使用熟悉的物品，以新的方式來實(shí)現(xiàn)特定的結(jié)果，并將結(jié)果與大型深度學(xué)習(xí)模型（例如 GPT-3 和 GPT-4）的輸出進(jìn)行了比較。

該研究由兩個(gè)組成部分：一個(gè)模仿部分（根據(jù)已知對(duì)象的現(xiàn)有知識(shí)進(jìn)行插值判斷）和一個(gè)創(chuàng)新部分（關(guān)于可以使用對(duì)象的新方式的外推性判斷）。

在創(chuàng)新部分，研究人員提出了一系列問題，需要在沒有典型工具的情況下執(zhí)行目標(biāo)（例如，在沒有圓規(guī)的情況下畫一個(gè)圓）。

然后，研究人員為參與者提供了替代物品選擇：

（a）與典型工具更相似但與上下文無關(guān)的物品（比方說一把尺子）。

（b）在表面上看起來不同但具有與典型工具相同的適用性和因果屬性的物品（例如，底部是圓形的一個(gè)茶壺）。

（c）完全無關(guān)的物品。

在研究的模仿部分，研究人員提供了相同的物品集合，但要求參與者選擇哪種物品選項(xiàng)與典型工具最匹配。

研究人員發(fā)現(xiàn)，3 至 7 歲的兒童和成年人（平均年齡 = 27.80 歲，標(biāo)準(zhǔn)差 = 5.54）在被問到哪些物品應(yīng)該放在一起時(shí)，可以識(shí)別對(duì)象之間的常見的表面關(guān)系。

同時(shí)，他們也可以發(fā)現(xiàn)日常物品的新功能，以解決新穎的問題，因此也會(huì)選擇表面上不相關(guān)，但功能相關(guān)的物品。

接下來，使用與測(cè)試中人類參與者的文本輸入完全相同的設(shè)置，研究人員想看看 OpenAI 的 GPT-4、Gpt-3.5-turbo 和 text-davinci-003 模型，以及 Anthropic 的 Claude，Google 的 FLAN-T5（XXL）表現(xiàn)如何。

由于研究人員注意到，這些模型會(huì)根據(jù)選項(xiàng)的順序，改變輸出結(jié)果，因此他們?yōu)槊總€(gè)場(chǎng)景跑了模型六次，全面考慮了由三個(gè)選項(xiàng)生成的六種不同順序。

研究人員將模型輸出設(shè)置為確定性，溫度為 0，保持所有其他參數(shù)的默認(rèn)值。然后，研究人員對(duì)六次重復(fù)試驗(yàn)的得分（選擇相關(guān)對(duì)象為 1，選擇其他響應(yīng)為 0）進(jìn)行了平均。

就像預(yù)測(cè)的那樣，研究人員發(fā)現(xiàn)這些 LLM 幾乎與人類一樣能夠識(shí)別對(duì)象之間的表面共性。

他們對(duì)物體之間的表面關(guān)聯(lián)呈現(xiàn)出敏感性，并在模仿任務(wù)中表現(xiàn)出色（GPT-4 平均 83.3%，gpt-3.5-turbo 平均 73.1%，davinci 平均 59.9%，Claude 平均 69.9%，F(xiàn)lan 平均 74.8%）。

然而，當(dāng)他們被要求選擇一種新功能工具來解決問題時(shí)，他們不如人類能力強(qiáng)（GPT-4 平均 75.9%，gpt-3.5-turbo 平均 58.9%，davinci 平均 8.87%，Claude 平均 58.16%，F(xiàn)lan 平均 45.7%）。

這表明，僅僅從大量語言中學(xué)習(xí)可能不足以實(shí)現(xiàn)工具創(chuàng)新。

不過比較可惜的是，有關(guān)這項(xiàng)研究的圖表并沒有公開。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

那么，LLM 是否能夠發(fā)現(xiàn)新的因果關(guān)系并利用它們來設(shè)計(jì)新工具呢？我們已經(jīng)反復(fù)提到，發(fā)現(xiàn)新工具的能力取決于是否能夠推斷出新的因果關(guān)系。

大量研究表明，即使是非常年幼的兒童也擅長發(fā)現(xiàn)這種關(guān)系。

因?yàn)殛P(guān)于因果結(jié)構(gòu)的信息可以通過模仿和文化傳播傳遞。因果發(fā)現(xiàn)是一個(gè)不錯(cuò)的例子，足以說明了一個(gè)認(rèn)知過程是如何解決逆問題并通過感知和行動(dòng)發(fā)現(xiàn)新的真理的。

最新版本的 GPT，GPT-4 和 GPT-3.5，通過從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)進(jìn)行了微調(diào)。

這同樣也有問題。從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)本身可能被認(rèn)為是一種啟用文化傳播的方法，算是半個(gè)作弊吧，LoL。

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

參考資料：

https://twitter.com/ylecun/status/1729265577733275786
https://journals.sagepub.com/doi/full/10.1177/17456916231201401

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

UC 伯克利發(fā)現(xiàn) GPT-4 驚人缺陷：兒童從經(jīng)驗(yàn)中學(xué)習(xí)因果，LLM 卻不行

LLM 究竟擬人嗎

LLM V.S 兒童

相關(guān)文章