【新智元導(dǎo)讀】「地表最強(qiáng)」GPT-4 在推理問題中接連出錯!MIT 校友,以及 UCLA 華人一作的最新研究引眾多網(wǎng)友圍觀。
GPT-4 根本不會推理!
近來,有兩篇研究稱,GPT-4 在推理方面表現(xiàn)不盡人意。
來自 MIT 的校友 Konstantine Arkoudas,在 21 種不同類型推理集中,對 GPT-4 進(jìn)行了評估。然后,對 GPT-4 在這些問題上的表現(xiàn)進(jìn)行了詳細(xì)的定性分析。
研究發(fā)現(xiàn),GPT-4 偶爾會展現(xiàn)出「最強(qiáng)大腦」的天賦,但目前來看,GPT-4 完全不具備推理能力。
論文地址:https://www.preprints.org/manuscript/202308.0148/v2
研究一出,引來眾多網(wǎng)友圍觀。
馬庫斯表示,「如果這是真的 —— 正如我早就說過的那樣 —— 我們離 AGI 還差得遠(yuǎn)呢。我們可能需要進(jìn)行大量的重新校準(zhǔn):沒有推理就不可能有 AGI」。
而另一篇來自 UCLA 和華盛頓大學(xué)的研究也發(fā)現(xiàn),GPT-4,以及 GPT-3.5 在大學(xué)的數(shù)學(xué)、物理、化學(xué)任務(wù)的推理上,表現(xiàn)不佳。
論文地址:https://arxiv.org/pdf/2307.10635.pdf
研究人員引入了一個大學(xué)科學(xué)問題解決基礎(chǔ) SCIBENCH,其中包含 2 個數(shù)據(jù)集:開放數(shù)據(jù)集,以及封閉數(shù)據(jù)集。
通過對 GPT-4 和 GPT-3.5 采用不同提示策略進(jìn)行深入研究,結(jié)果顯示,GPT-4 成績平均總分僅為 35.8%。
這項研究同樣再次引起馬庫斯的關(guān)注:
關(guān)于數(shù)學(xué)、化學(xué)和物理推理的系統(tǒng)調(diào)查,結(jié)果顯示,目前的 LLM 無法提供令人滿意的性能...... 沒有一種提示策略明顯優(yōu)于其他策略。
下面我們就來具體看看,GPT-4 如何在 21 個問題集,數(shù)學(xué)、物理、化學(xué)上推理慘敗的。
21 個問題集,GPT-4 全翻車
不過,在看 GPT-4 回答問題之前,作者給出了一個注意事項:
GPT-4 是一個非確定性系統(tǒng),即使參數(shù)設(shè)置相同,在不同的運行中也可能產(chǎn)生不同的答案。
而以下的測試交流都是逐字記錄的,根據(jù)作者的經(jīng)驗,文中討論的 GPT-4 出錯的地方往往具有魯棒性。
1. 簡單算術(shù)
能夠進(jìn)行基本運算,是推理的必要條件。但是,GPT-4 仍然無法可靠地執(zhí)行加法、乘法等基本算術(shù)運算。
比如,讓 GPT-4 在 1381 和 1453 之間隨機(jī)選擇兩個數(shù)字相乘,并給出結(jié)果。
GPT-4 選擇了 1405,以及 1421,但是最后給出的結(jié)果顯然是錯的。因為 1405×1421=1996505。
2. 簡單計數(shù)
雖然具體計數(shù)并不一定是一種推理活動 ,但它肯定是任何具有一般能力推理系統(tǒng)的必備條件。
在這里,給 GPT-4 一個命題變量,并在它前面加上 27 個否定符號,要求它計算否定符號的個數(shù)。
對于我們來講,這簡直輕而易舉,尤其是否定符號是間隔 5 個寫成的,并且有 5 組,最后一對否定符號緊隨其后。
然而,GPT-4 卻給出了「28 個」答案。
3. (醫(yī)學(xué))常識
當(dāng)前,我們可以將常識性論證視為,從給定信息加上未說明的條件(默認(rèn)的、普遍接受的背景知識)中得出的簡單推理。
在這種特殊情況下,常識性知識就是「人在死前是活著的,死后就不會再活著」這樣的命題。
比如,當(dāng)你問 GPT-4:Mable 上午 9 點的心率為 75 bpm,下午 7 點的血壓為 120/80。她于晚上 11 點死亡。她中午還活著嗎?
GPT-4 竟回答:根據(jù)所提供的信息,無法確定 Mable 中午是否還活著。
但明顯根據(jù)給定的信息,常識性推斷(不用想)直接得出結(jié)論了。
4. 初級邏輯
如果 P (x) 包含 Q (x),而 Q (a) 不成立,那么我們就可以根據(jù)模型推論出 P (a) 也不成立(因為如果 P (a) 成立,那么 Q (a) 也會成立)。
這是一個最基本的同義反復(fù),但 GPT-4 卻完全提出一個反模型:
值得注意的是,GPT-4 認(rèn)識到,P (x) 實際上并不包含 Q (x),并提出了 x 有可能是負(fù)數(shù)偶數(shù),「不排除存在其他給定條件的模型」。
其實不然,一個反模型(countermodel)必須滿足所有給定的條件,同時證偽結(jié)論。
此外,僅僅幾句話之后,GPT-4 就聲稱 P (x) 在給定的解釋下確實蘊含 Q (x),這與它自己之前的說法相矛盾。
說明,GPT-4 還會出現(xiàn)內(nèi)部不一致的問題。
5. 簡單量詞語義
請看下面三個句子:
1. [forall x . P(x) ==> Q(x)]
2. [exists x . P(x)]
3. [exists x . ~ Q(x)]
請證偽或證明以下主張:這三個句子是共同可滿足的。
顯然,這三個句子都是共同可滿足的,一個簡單的模型是具有 P (a1)、Q (a1)、?P (a2) 和 ?Q (a2) 的域 {a1, a2},然而 GPT-4 得出的結(jié)論確與之相反。
6. 簡單圖著色
首先考慮一個沒有解決方案的圖著色問題。
不難發(fā)現(xiàn),對于這個問題中描述的圖形,兩種顏色是不足以滿足問題中描述的圖(例如,頂點 0、2 和 4 形成了一個簇,因此至少需要 3 種顏色)。
在這個簡短的輸出中,出現(xiàn)大量驚嚇下巴的錯誤。
GPT-4 一開始就謊稱圖形是完全的(顯然不是,例如頂點 2 和 3 之間沒有邊)。
此外,顯而易見的是,如果圖形真是完全的,那么就不可能用 2 種顏色來著色,因為一個有 6 個頂點的完全圖形至少需要 6 種顏色。
換句話說,GPT-4 的說法不僅是錯誤的,而且是前后矛盾的:一會兒告訴我們(錯誤)這 6 頂點圖形是完全的,這意味著不可能用 2 種顏色給它著色,一會兒又提供了一種雙色「解決方案」。
值得注意的是,GPT-4 之所以表現(xiàn)如此糟糕,并不是因為它沒有掌握足夠的圖形知識或數(shù)據(jù)。
當(dāng)研究人員要求 GPT-4 對「完全圖」的了解時,它滔滔不絕地說出了「完全圖」的正確定義,以及一長串關(guān)于 K_n(有 n 個頂點的完全圖)的結(jié)果。
顯然,GPT-4 已經(jīng)記住了所有這些信息,但卻無法在新條件中應(yīng)用。
7. 子集和
S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么 S 有多少個子集的總和是 37?
這個問題中,S 的子集都是偶數(shù),而偶數(shù)之和不可能是奇數(shù),因此答案為 0。
然而,GPT-4 沒有停下來考慮 S 包含的內(nèi)容,而是反射性地生成它認(rèn)為對這個問題合適的答案,然后繼續(xù)「幻化」出一個答案「4」。
8. 初級離散數(shù)學(xué)
告訴 GPT-4 A × B 代表集合 A 和 B 的笛卡爾積、從 A 到 B 的關(guān)系 R 是 A × B 的子集,以及 & 代表集合交集之后要求它證明或證偽:
其中 R1 和 R2 是從 A 到 B 的二元關(guān)系,dom (R) 表示二元關(guān)系 R 的域。
需要子集關(guān)系在 (2) 的兩個方向上都成立,但它只在從左到右的方向上成立。另一個方向的反例很容易找到(例如,取 A = {(1, 2)} 和 B = {(1,3)})。
然而,GPT-4 卻推斷這是成立的,顯然不正確。
9. 簡單安排計劃
在時間安排問題上,GPT-4 同樣出錯了。
10. 羅素悖論
羅素理發(fā)師悖論是指,存在一個理發(fā)師 b,他為且僅為那些不給自己刮胡子的人刮胡子。
這句話的否定是一個同義反復(fù),很容易用一階邏輯推導(dǎo)出來。
如果我們把 R (a,b) 理解為 a 被 b 刮胡子,那么我們就可以提出這個同義反復(fù),并要求 GPT-4 證明或反證它,如下面 prompt 所示:
如果存在這樣一個理發(fā)師 x,那么對于所有 y,我們將有 R (y,x) <==> ~ R (y,y),因此用 x 代替 y 將得到 R (x,x) <==> ~ R (x,x),這是矛盾的。
GPT-4 對所給句子的結(jié)構(gòu)和需要做的事情的理解無可挑剔。然而,隨后的案例分析卻糊里糊涂。
11. 積木世界
這是一個簡單的推理任務(wù),需要對倒數(shù)第三個積木 B3 進(jìn)行案例分析。
首先,B3 要么是綠色的,要么不是。
如果是綠色的,那么 B3 就在非綠色積木 B4 的上面,所以結(jié)論成立。
如果不是,那么從上數(shù)的第二個綠色積木 B2,就在非綠色積木 B3 上面,因此結(jié)論仍然成立。
然而,結(jié)果顯示,GPT-4 的表現(xiàn)并不理想。
有五個積木從上往下堆疊:
1. 從上往下數(shù)第二個積木是綠色的
2. 從上往下數(shù)第四個積木不是綠色的
在這些條件成立的情況下,證偽或證明以下結(jié)論:在一個非綠色積木的正上方,有一個綠色積木。
首先它在證明猜想時,就已經(jīng)弄錯了證明的策略 ——GPT-4 假定了兩種特殊情況來進(jìn)行推理。
此外,GPT-4 在自己的推理中已經(jīng)得出了結(jié)論(雖然是錯的),但在回答時仍然告訴用戶問題沒有被解決。而這體現(xiàn)的便是模型的內(nèi)部不一致性問題。
12. 空間推理
這里作者選擇了一個現(xiàn)實世界中的方位問題:
GPT-4 第一次給出的答案是右邊,但作者指出了它的錯誤,雖然從地圖上來看,位于馬薩諸塞州的波士頓的確在南達(dá)科他州的右邊,但這里還有一個附加條件:身體的朝向是得克薩斯州。
這意味著波士頓在作者的左邊。
之后,GPT-4 在回答波士頓與南達(dá)科他州高低位置時,出現(xiàn)了更嚴(yán)重的問題:它在同一個回答中給出了兩種矛盾的描述。
13. 時間推理
作者在這里給出了一個比較簡單的時間推理問題,但 GPT-4 的回答依舊一塌糊涂。
Tom 和 Nancy 上班需要乘坐交通工具。Nancy 的通勤時間大約為 30~40 分鐘,而 Tom 的通勤時間大約為 40~50 分鐘。上個周五,Nancy 在早上 8:10~8:20 之間離家,而 Tom 在早上 8:5~9:10 之間到達(dá)工作地點。此外,Nancy 在 Tom 離開家后到達(dá)工作地點,但不會超過 20 分鐘。你能否推斷出上個星期五,Tom 和 Nancy 何時到達(dá)工作地點?
在梳理完問題中的信息后,GPT-4 給出了它的推理過程:
「如果 Tom 在可能最晚的時間(上午 8:20)離開家...」 這句話一開篇就錯了。
實際上,題目并沒有給出有關(guān) Tom 最晚離開家的時間,而 GPT-4 將 Nancy 的時間(「Nancy 在上午 8:10-8:20 之間離家」)誤用到了 Tom 身上。
同時,GPT-4 給出的條件語句是混亂的,假設(shè)中包含了與結(jié)論(Nancy 的到達(dá)時間)無關(guān)的信息(Tom):「如果 Tom 在最晚時間(上午 8:20)離開家,Nancy 在她最晚時間(上午 8:20)離開,她的通勤時間最多是 40 分鐘,Nancy 最晚在上午 9:00 到達(dá)工作地點?!?/p>
這應(yīng)該表述為:「如果 Nancy 在她最晚時間(上午 8:20)離開,并且她的通勤時間最多是 40 分鐘,那么 Nancy 最晚會在上午 9:00 到達(dá)工作地點?!?/p>
接著,GPT-4 錯誤地推斷出以下內(nèi)容:「由于 Tom 的通勤時間最少為 40 分鐘,這意味著他最晚會在上午 9:00 到達(dá)工作地點?!?/p>
這個結(jié)論顯而易見根本不成立。從已知的「Tom 的通勤時間最少為 40 分鐘」這個事實中無法得出這個結(jié)論。
接下來的回答依舊是基于錯誤地假設(shè) Tom 最早離開時間是上午 8:10 的條件(再次,這個出發(fā)時間是 Nancy 的,不是 Tom 的)。
然后它聲稱 Nancy 到達(dá)時間是 8:45,這與早上 8:10 離家,不超過 20 分鐘條件不符合。
最后,它錯誤地得出結(jié)論 Tom 和 Nancy 都在 8:50 和 9:00 之間到達(dá)。
在推理的過程中,GPT-4 屢次出現(xiàn)了將信息張冠李戴的情況,最后給出的答案也是基于錯誤條件得出的錯誤回答。
14. 謀殺還是自殺?
作者構(gòu)思了一個邏輯謎題,列出了 9 個條件要求 GPT-4 找出真正殺害 Agatha 姨媽的兇手。
1. 住在 Dreadbury Mansion 的某人殺了 Agatha 姨媽。
2. Dreadbury Mansion 中唯一的居住者是 Agatha 姨媽、管家和 Charles。
3. 殺人犯總是討厭他的受害者,并且他的財富不會比受害者多。
4. Charles 不討厭 Agatha 姨媽討厭的人。
5. Agatha 姨媽討厭所有人,除了管家。
6. 管家討厭所有不比 Agatha 姨媽富有的人。
7. 管家討厭 Agatha 姨媽討厭的所有人。
8. 沒有人討厭所有人。
9. Agatha 姨媽不是管家。
正確的答案是 Agatha 姨媽殺了自己。
首先,根據(jù)條件 5,Agatha 姨媽必須討厭她自己,因為她討厭所有除了管家以外的人。
因此,根據(jù)條件 4,得出 Charles 不討厭她,所以他不可能殺了她。
根據(jù)條件 5 和 7,管家不可能討厭他自己,因為如果他討厭自己的話,條件 8 就不成立了,他會討厭所有人。
根據(jù)條件 6,得出管家比 Agatha 姨媽更富有,否則他會討厭自己,這與前面我們得出的他不討厭自己相矛盾。
根據(jù)條件 3,管家也不會是兇手(第 3 個條件)。
在推理中,GPT-4 正確地排除了 Charles,但無法排除管家,并得出了錯誤的結(jié)論:管家是兇手。
GPT-4 做出的另一個關(guān)鍵錯誤是:由于 Agatha 姨媽討厭所有除管家以外的人(條件 5),這意味著她至少不討厭她自己。
這是一個奇怪的錯誤,從第 5 個條件就可以得出 Agatha 姨媽討厭她自己。
同時,GPT-4 又一次展示了反復(fù)出現(xiàn)的不一致性問題 —— 幾乎在每一條回復(fù)中,GPT-4 都聲稱推導(dǎo)出某個命題及其否定形式。
15. 沃森選擇任務(wù)(Wason selection task)
沃森選擇任務(wù)是心理推理領(lǐng)域中的基本內(nèi)容。
在一月份的論文中,GPT-3.5 就未能通過這個測試,本次研究中,GPT-4 的表現(xiàn)依舊不理想。
桌上放著 7 張牌,每張牌一面寫著數(shù)字,另一面是單色色塊。這些牌的正面顯示的是 50、16、紅色、黃色、23、綠色、30。
要判斷「如果一張牌正面顯示 4 的倍數(shù),則背面顏色為黃色」這個命題的真假,你需要翻轉(zhuǎn)哪些牌?
這些回答顯示,GPT-4 不理解條件語句的語義。當(dāng) GPT-4 說卡片「50」和「30」必須翻開時,它似乎將條件誤認(rèn)為是充分必要條件。
而無論 GPT-4 的回答是對還是錯,其內(nèi)部的說法都是不一致的。
16. 熵
信息論的一個基本結(jié)論是:隨機(jī)向量 Z 的熵上界不超過組成 Z 的隨機(jī)變量的熵之和。
因此,下面問題的答案應(yīng)該是「在任何情況下都不會」。
17. 簡單編譯器的正確性
最后給 GPT-4 的推理問題是最具挑戰(zhàn)性的:證明一個簡單表達(dá)式編譯器的正確性。
但在這次測試中,GPT-4 通過在表達(dá)式的抽象語法結(jié)構(gòu)上設(shè)置結(jié)構(gòu)歸納,正確地進(jìn)行了證明。
這可能是因為它之前看過類似的證明,作者給出的例子是編程課程和教材中常見的練習(xí)類型。
然而,GPT-4 還是會出現(xiàn)一些細(xì)節(jié)上錯誤。
結(jié)論:推理能力至關(guān)重要,但 GPT-4 不會
鑒于 GPT-4 是目前能力最強(qiáng)的 LLM,因此作者基于以上分析給出了三個主要結(jié)論:
1. 在軟件開發(fā)(或一般的科學(xué)和工程領(lǐng)域)中使用生成式 AI,除了對于一些繁瑣的任務(wù)外(作為一種對知識密集型編碼問題的加速自動補全),充滿了風(fēng)險。在這些領(lǐng)域,規(guī)范性和正確性至關(guān)重要,而當(dāng)前的 LLM 無法達(dá)到這些標(biāo)準(zhǔn)。
2. 隨著 LLM 推理能力的不斷提高,嚴(yán)格的證明檢查會變得越來越重要。這種方法可以通過要求 LLM 將其推理形式化,或者通過訓(xùn)練其他 LLM,來檢查用自然語言表達(dá)的推理。
3. 就目前而言,AI 征服人類或人類利用 AI 達(dá)到邪惡目的這種反烏托邦情景,都極為牽強(qiáng),甚至到了荒謬的地步。當(dāng)最先進(jìn)的 AI 系統(tǒng)連左右都分不清時(上述第 12 個問題),呼吁制定政策來保護(hù)人類免受它的傷害,往好里說是為時過早,往大了說就是對資源的浪費。
不可避免地,一些人可能會說這些結(jié)果是「挑選數(shù)據(jù)」。但這是因為他們對什么是挑選數(shù)據(jù)存在著誤解。根據(jù)相關(guān)命題的邏輯結(jié)構(gòu)和整體背景,挑選數(shù)據(jù)有時甚至是必要的。
通過對計算機(jī)程序進(jìn)行調(diào)試來發(fā)現(xiàn)和理解其弱點,試圖證偽科學(xué)理論,試駕新車,試圖找到一個假定的定理的反模型等等,從根本上來說都是「挑刺」。
舉個例子,比如你發(fā)現(xiàn)自己新買的汽車有一個輪胎漏氣,這時經(jīng)銷商就可以抗議稱你是在「挑選數(shù)據(jù)」。畢竟,就整輛車來說,輪胎的完好率高達(dá) 75%。
同樣,科學(xué)、醫(yī)學(xué)和工程領(lǐng)域的應(yīng)用,尤其是軟件工程,都有嚴(yán)格的標(biāo)準(zhǔn)。
就像我們不想要一座在 90% 的情況下能立柱的橋梁一樣,我們需要對所有輸入都有效的排序算法,而不僅僅是大部分;我們需要購物車每次都能收取正確的費用,而不僅僅是大多數(shù)時間,等等。
而這些計算和推理密集型的應(yīng)用,與推薦引擎不同,它們必須非??煽?。
作者介紹
Konstantine Arkoudas
直到去年,Konstantine Arkoudas 還是 RPI 認(rèn)知科學(xué)系的研究員,也是麻省理工學(xué)院 CSAIL 的研究員。
目前,他是 Telcordia 研究實驗室的高級研究科學(xué)家,主要研究 AI,以及在電信和網(wǎng)絡(luò)行業(yè)應(yīng)用正式方法解決現(xiàn)實世界的問題。
他曾在 2000 年獲得了 MIT 的計算機(jī)科學(xué)博士學(xué)位。在此之前,還獲得了計算機(jī)科學(xué)碩士學(xué)位,哲學(xué)碩士學(xué)位,以及計算機(jī)科學(xué)學(xué)士學(xué)位,輔修哲學(xué)。
大學(xué)數(shù)理化,GPT-4 得分 35.8%
UCLA 的研究中,主要評估了 GPT-4,以及 GPT-3.5 在數(shù)學(xué)、化學(xué)、物理方面的推理能力。
當(dāng)前,為了增強(qiáng) LLM 解決數(shù)學(xué)等任務(wù)的能力,有人提出了思維連 CoT 策略,指導(dǎo)大模型逐步生成答案,從而更深入思考問題。
然而,即使這樣的方法有其特定的優(yōu)勢,也難以完全解決復(fù)雜的科學(xué)問題。
如下,是大學(xué)物理化學(xué)的一個示例問題,以及在兩種提示策略下生成的解決方案。
有 CoT 加持的 GPT-4 出現(xiàn)明顯的計算錯誤,而提示用 Python 作為外部工具的 GPT-4,也會誤解數(shù)學(xué)方程。
對此,研究中引入了一個大學(xué)水平的科學(xué)問題基準(zhǔn) SCIBENCH。
其中,「開放數(shù)據(jù)集」包括從大學(xué)課程廣泛使用的教科書中收集的 5 個問題,涵蓋了基礎(chǔ)物理、熱力學(xué)、經(jīng)典力學(xué)、量子化學(xué)、物理化學(xué)、微積分、統(tǒng)計學(xué)和微分方程。
另一個是「封閉數(shù)據(jù)集」,為了模擬真實世界的評估,其中包含了計算機(jī)科學(xué)和數(shù)學(xué)三門大學(xué)課程的 7 套期中和期末考試題。
與現(xiàn)有基準(zhǔn)不同,SCIBENCH 中的所有問題都是,開放式、自由回答的問題。
數(shù)據(jù)集中有了,研究重點評估了兩個具有代表性的 LLM,GPT-3.5 和 GPT-4,并采用了不同的提示策略,包括 CoT、零樣本學(xué)習(xí)、少樣本學(xué)習(xí)。
另外,研究人員還提示模型使用外部工具,比如 Python 和 Wolfram 語言。
實驗結(jié)果表明,在沒有任何復(fù)雜提示、或使用外部工具的情況下,GPT-3.5 和 GPT-4 在開放數(shù)據(jù)集中平均準(zhǔn)確率分別為 10.62% 和 16.81%。
那么,在加入 CoT 和外部工具后,在同一數(shù)據(jù)集上最高準(zhǔn)確率也僅僅是 35.8%。不過,相較之前,很大程度提高了準(zhǔn)確率。
在使用 CoT 提示 + 外部工具最強(qiáng)配置下,GPT-4 在開放式數(shù)據(jù)集上取得了 35.80% 的平均分,在封閉數(shù)據(jù)集上取得了 51.57% 的平均分。
這些結(jié)果表明,在未來的 LLM 中,GPT-4 有相當(dāng)大的改進(jìn)潛力。
為了全面了解 LLM 在科學(xué)問題解決中的局限性,研究人員提出了一種全新的「自我完善」的方法,以發(fā)現(xiàn) LLM 所做解答中的不足之處。
便是如下的「評估協(xié)議」。
首先,將正確的解決方案與 LLM 生成的解決方案進(jìn)行比較,并在人工標(biāo)注員的協(xié)助下,總結(jié)出成功解決科學(xué)問題所需的 10 項基本技能。
具體包括:邏輯分解和分析能力;識別假設(shè);空間感知;因果推理;問題演繹;抽象推理;科學(xué)素養(yǎng);代碼轉(zhuǎn)換;邏輯推理;計算能力。
隨后,團(tuán)隊采用了一種由 LLM 驅(qū)動的自我評價方法,對每個實驗配置下基準(zhǔn) LLM 所做的解決方案中,缺乏的技能進(jìn)行自動分類。
6 種設(shè)置下 GPT-3.5 在文本數(shù)據(jù)集上的錯誤概況,揭示了其 10 種基本解決問題能力的缺陷分布
最后,通過分析發(fā)現(xiàn):
(1)雖然 CoT 顯著提高了計算能力,但在其他方面的效果較差;
(2)使用外部工具的提示可能會損害其他基本技能;
(3)少樣本學(xué)習(xí)并不能普遍提高科學(xué)問題解決能力。
總之,研究結(jié)果表明,當(dāng)前大型語言模型在解決問題能力方面依舊很弱,并且在各種工具幫助下,依舊存在局限性。
參考資料:
https://www.preprints.org/manuscript/202308.0148/v2
https://arxiv.org/pdf/2307.10635.pdf
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。