設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

震驚科學(xué)界,微軟 154 頁(yè)研究刷屏:GPT-4 能力接近人類,「天網(wǎng)」初現(xiàn)?

新智元 2023/3/26 17:32:05 責(zé)編:夢(mèng)澤
感謝IT之家網(wǎng)友 Sancu 的線索投遞!

在通往 AGI 的路上我們還有多遠(yuǎn)?微軟豪華作者團(tuán)隊(duì)發(fā)布的 154 頁(yè)論文指出,GPT-4 已經(jīng)初具通用人工智能的雛形。

GPT-4 會(huì)演變?yōu)橥ㄓ萌斯ぶ悄軉幔?/p>

Meta 首席人工智能科學(xué)家、圖靈獎(jiǎng)得主 Yann LeCun 對(duì)此表示質(zhì)疑。

在他看來(lái),大模型對(duì)于數(shù)據(jù)和算力的需求實(shí)在太大,學(xué)習(xí)效率卻不高,因此學(xué)習(xí)「世界模型」才能通往 AGI 之路。

不過(guò),微軟最近發(fā)表的 154 頁(yè)論文,似乎就很打臉。

在這篇名為「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中,微軟認(rèn)為,雖然還不完整,但 GPT-4 已經(jīng)可以被視為一個(gè)通用人工智能的早期版本。

論文地址:https://arxiv.org/ pdf / 2303.12712.pdf

鑒于 GPT-4 能力的廣度和深度,我們相信它應(yīng)該被合理視作一個(gè)通用人工智能(AGI)系統(tǒng)的早期(但仍不完整)版本。

本文的主要目標(biāo)是對(duì) GPT-4 的能力和局限性進(jìn)行探索,我們相信 GPT-4 的智能標(biāo)志著計(jì)算機(jī)科學(xué)及其他領(lǐng)域的真正范式轉(zhuǎn)變。

AGI 的智能體現(xiàn)在能夠像人類一樣思考和推理,并且還能夠涵蓋廣泛的認(rèn)知技能和能力。

論文中,指出 AGI 具有推理、規(guī)劃、解決問(wèn)題、抽象思維、理解復(fù)雜思想、快速學(xué)習(xí)和經(jīng)驗(yàn)學(xué)習(xí)能力。

從參數(shù)規(guī)模上來(lái)看,Semafor 報(bào)道稱 GPT-4 有 1 萬(wàn)億個(gè)參數(shù),是 GPT-3(1750 億個(gè)參數(shù))的 6 倍大。

網(wǎng)友用 GPT 參數(shù)規(guī)模大腦神經(jīng)元做了類比:

GPT-3 的規(guī)模與刺猬大腦類似(1750 億個(gè)參數(shù))。如果 GPT-4 擁有 1 萬(wàn)億個(gè)參數(shù),我們就接近松鼠大腦的規(guī)模了。以這個(gè)速度發(fā)展下去,也許只需要幾年時(shí)間,我們就能達(dá)到并超越人類大腦的規(guī)模(170 萬(wàn)億參數(shù))。

由此看來(lái),GPT-4 距離成為「天網(wǎng)」也不遠(yuǎn)了。

而這篇論文,還被扒出不少趣事。

論文發(fā)布不久后,一位網(wǎng)友在推特上爆出從他們的 latex 源代碼中發(fā)現(xiàn)了隱藏信息。

在未刪減版的論文中,GPT-4 實(shí)際上也是該論文的隱藏第三作者,內(nèi)部名稱 DV-3,后被刪除。

有趣的是,就連微軟研究人員對(duì) GPT-4 的技術(shù)細(xì)節(jié)并不清楚。另外,這篇論文還刪除了 GPT-4 在沒(méi)有任何提示的情況下產(chǎn)生的有毒內(nèi)容。

GPT-4 初具 AGI 雛形

這篇論文的研究對(duì)象,是 GPT-4 的早期版本。它還處于早期開(kāi)發(fā)階段時(shí),微軟的研究者就對(duì)它進(jìn)行了各種實(shí)驗(yàn)和測(cè)評(píng)。

在研究者看來(lái),這個(gè)早期版本的 GPT-4,就已經(jīng)是新一代 LLM 的代表,并且相較于之前的人工智能模型,展現(xiàn)出了更多的通用智能。

通過(guò)測(cè)試,微軟的研究者證實(shí):GPT-4 不僅精通語(yǔ)言,還能在數(shù)學(xué)、編程、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等多樣化和高難度的任務(wù)中表現(xiàn)出色,且無(wú)需特別提示。

令人驚奇的是,在所有這些任務(wù)中,GPT-4 的表現(xiàn)已經(jīng)接近人類水平,并且時(shí)常超過(guò)之前的模型,比如 ChatGPT。

因此,研究者相信,鑒于 GPT-4 在廣度和深度上的能力,它可以被視為通用人工智能(AGI)的早期版本。

那么,它朝著更深入、更全面的 AGI 前進(jìn)的路上,還有哪些挑戰(zhàn)呢?研究者認(rèn)為,或許需要尋求一種超越「預(yù)測(cè)下一個(gè)詞」的新范式。

如下關(guān)于 GPT-4 能力的測(cè)評(píng),便是微軟研究人員給出關(guān)于 GPT-4 是 AGI 早期版本的論據(jù)。

多模態(tài)和跨學(xué)科能力

自 GPT-4 發(fā)布后,大家對(duì)其多模態(tài)能力的印象還停留在 Greg Brockman 當(dāng)時(shí)演示的視頻上。

這篇論文第二節(jié)中,微軟最先介紹了它的多模態(tài)能力。

GPT-4 不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和程序設(shè)計(jì)等不同領(lǐng)域表現(xiàn)出高度熟練程度,而且它還能夠?qū)⒍鄠€(gè)領(lǐng)域的技能和概念統(tǒng)一起來(lái),并能理解其復(fù)雜概念。

綜合能力

研究人員分別用以下 4 個(gè)示例來(lái)展示 GPT-4 在綜合能力方面的表現(xiàn)。

第一個(gè)示例中,為了測(cè)試 GPT-4 將藝術(shù)和編程結(jié)合的能力,研究人員要求 GPT-4 生成 javascript 代碼,以生成畫家 Kandinsky 風(fēng)格的隨機(jī)圖像。

如下為 GPT-4 實(shí)現(xiàn)代碼過(guò)程:

在文學(xué)和數(shù)學(xué)結(jié)合上,GPT-4 能夠以莎士比亞的文學(xué)風(fēng)格證明質(zhì)數(shù)是無(wú)窮多的。

此外,研究還測(cè)試了 GPT-4 將歷史知識(shí)和物理知識(shí)結(jié)合起來(lái)的能力,通過(guò)要求其撰寫一封支持 Electron 競(jìng)選美國(guó)總統(tǒng)的信,信是由圣雄甘地寫給他的妻子的。

通過(guò)提示 GPT-4 為一個(gè)程序生成 python 代碼,該程序?qū)⒒颊叩哪挲g、性別、體重、身高和血液檢測(cè)結(jié)果向量作為輸入,并指出患者是否處于糖尿病風(fēng)險(xiǎn)增加的狀態(tài)。

通過(guò)測(cè)試,以上例子表明 GPT-4 不僅能夠?qū)W習(xí)不同領(lǐng)域和風(fēng)格的一些通用原則和模式,還能以創(chuàng)造性的方式將其結(jié)合。

視覺(jué)

當(dāng)提示 GPT-4 使用可伸縮矢量圖形(SVG)生成物體圖像,如貓、卡車或字母時(shí),該模型生成的代碼通常會(huì)編譯成相當(dāng)詳細(xì),且可識(shí)別的圖像,如下圖:

然而,許多人可能會(huì)認(rèn)為 GPT-4 只是從訓(xùn)練數(shù)據(jù)中復(fù)制了代碼,其中包含類似的圖像。

其實(shí) GPT-4 不僅是從訓(xùn)練數(shù)據(jù)中的類似示例中復(fù)制代碼,而且能夠處理真正的視覺(jué)任務(wù),盡管只接受了文本訓(xùn)練。

如下,提示模型通過(guò)結(jié)合字母 Y、O 和 H 的形狀來(lái)繪制一個(gè)人。

在生成過(guò)程中,研究人員使用 draw-line 和 draw-circle 命令創(chuàng)建了 O、H 和 Y 的字母,然后 GPT-4 設(shè)法將它們放置在一個(gè)看起是合理的人形圖像中。

盡管 GPT-4 并沒(méi)有經(jīng)過(guò)關(guān)于字母形狀的認(rèn)識(shí)的訓(xùn)練,仍舊可以推斷出,字母 Y 可能看起來(lái)像一個(gè)手臂朝上的軀干。

在第二次演示中,提示 GPT-4 糾正軀干和手臂的比例,并將頭部放在中心位置。最后要求模型添加襯衫和褲子。

如此看來(lái),GPT-4 從相關(guān)訓(xùn)練數(shù)據(jù)中、模糊地學(xué)習(xí)到字母與一些特定形狀有關(guān),結(jié)果還是不錯(cuò)的。

為了進(jìn)一步測(cè)試 GPT-4 生成和操作圖像的能力,我們測(cè)試了它遵循詳細(xì)指令創(chuàng)建和編輯圖形的程度。這項(xiàng)任務(wù)不僅需要生成能力,還需要解釋性、組合性和空間性能力。

第一個(gè)指令是讓 GPT-4 生成 2D 圖像,prompt 為:

「A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do o er low interest loans for pond upgrades」

通過(guò)多次嘗試,GPT-4 每一次都生成符合描述的圖像。然后,要求 GPT-4 添加更多細(xì)節(jié)來(lái)提高圖形質(zhì)量,GPT-4 添加了銀行、窗戶、汽車等符合現(xiàn)實(shí)邏輯的物體。

我們的第二個(gè)示例是嘗試使用 Javascript 生成一個(gè) 3D 模型,同樣通過(guò)指令 GPT-4 完成了許多任務(wù)。

另外,GPT-4 在草圖生成方面,能夠結(jié)合運(yùn)用 Stable Difusion 的能力。

下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個(gè)按鈕,顏色分別為綠色、藍(lán)色、棕色和紅色。生成結(jié)果如下:

音樂(lè)

研究人員要求 GPT-4 用 ABC 記譜法編碼生成和修改曲調(diào),如下:

通過(guò)探究 GPT-4 在訓(xùn)練中獲得了多少技能,研究人員發(fā)現(xiàn) GPT-4 能夠在 ABC 記譜法中產(chǎn)生有效的旋律,并在一定程度上解釋和操作其中的結(jié)構(gòu)。

然而,研究人員無(wú)法讓 GPT-4 產(chǎn)生任何非平凡的和聲形式,比如無(wú)法譜出像《歡樂(lè)頌》、《致愛(ài)麗絲》等著名的旋律。

編程能力

此外,研究人員還展示了 GPT-4 能夠以非常高的水平進(jìn)行編碼能力,無(wú)論是根據(jù)指令編寫代碼,還是理解現(xiàn)有代碼方面都展現(xiàn)出超強(qiáng)能力。

在根據(jù)指令編寫代碼方面,研究人員演示了一個(gè)讓 GPT-4 寫 python 函數(shù)的例子。

代碼生成后,研究人員使用軟件工程面試平臺(tái) LeetCode 在線判斷代碼是否正確。

對(duì)于大家都在用討論 LeetCode 正確率僅有 20%,論文作者 Yi Zhang 對(duì)此進(jìn)行了反駁。

另外,還讓 GPT-4 將上表中 LeetCode 的準(zhǔn)確率數(shù)據(jù)可視化為圖表,結(jié)果如圖所示。

GPT-4 不僅可以完成普通的編程工作,還能勝任復(fù)雜的 3D 游戲開(kāi)發(fā)。

研究者讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 游戲,GPT-4 在零樣本的情況下生成了一個(gè)滿足所有要求的游戲。

在深度學(xué)習(xí)編程中,GPT-4 不僅需要數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí),還需要對(duì) PyTorch、TensorFlow、Keras 等框架和庫(kù)熟悉。

研究人員要求 GPT-4 和 ChatGPT 編寫一個(gè)自定義優(yōu)化器模塊,并為其提供了自然語(yǔ)言描述,其中包括一系列重要的操作,例如應(yīng)用 SVD 等等。

除了根據(jù)指令編寫代碼,GPT-4 在理解代碼上展現(xiàn)出超強(qiáng)的能力。

研究者嘗試讓 GPT-4 和 ChatGPT 讀懂一段 C / C++ 程序,并預(yù)測(cè)程序的輸出結(jié)果,二者的表現(xiàn)如下:

標(biāo)黃的地方是 GPT-4 富有洞察力的觀點(diǎn),而紅色標(biāo)記代表 ChatGPT 出錯(cuò)的地方。

通過(guò)編碼能力測(cè)試,研究者發(fā)現(xiàn) GPT-4 可以處理各種編碼任務(wù),從編碼挑戰(zhàn)到實(shí)際應(yīng)用,從低級(jí)匯編到高級(jí)框架,從簡(jiǎn)單數(shù)據(jù)結(jié)構(gòu)到復(fù)雜的程序。

此外,GPT-4 還可以推理代碼執(zhí)行、模擬指令的效果,并用自然語(yǔ)言解釋結(jié)果。GPT-4 甚至可以執(zhí)行偽代碼。

數(shù)學(xué)能力

在數(shù)學(xué)能力上,相比于之前的大語(yǔ)言模型,GPT-4 已經(jīng)取得了質(zhì)的飛躍。即便是面對(duì)專門精調(diào)的 Minerva,在性能上也有明顯提升。

不過(guò),距離專家水平還相去甚遠(yuǎn)。

舉個(gè)例子:每年兔子的種群數(shù)量會(huì)增加 a 倍,而在年底的最后一天,有 b 只兔子被人類領(lǐng)養(yǎng)。假設(shè)第一年的第一天有 x 只兔子,已知 3 年后兔子的數(shù)量將變?yōu)?27x-26。那么,a 和 b 的值分別是多少?

為了解決這個(gè)問(wèn)題,我們首先需要得出每年兔子數(shù)量變化的正確表達(dá)式,通過(guò)這種遞歸關(guān)系推導(dǎo)出一個(gè)方程組,進(jìn)而得到答案。

這里,GPT-4 成功地得出了解決方案,并提出了一個(gè)合理的論點(diǎn)。相比之下,在幾次獨(dú)立嘗試中,ChatGPT 始終無(wú)法給出正確的推理和答案。

高等數(shù)學(xué)

接下來(lái),我們直接上個(gè)難的。比如,下面這道出自 2022 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的問(wèn)題(簡(jiǎn)化版)。

該題與本科微積分考試的不同之處在于,它不符合結(jié)構(gòu)化的模板。解決這個(gè)問(wèn)題需要更有創(chuàng)造性的方法,因?yàn)闆](méi)有明確的策略來(lái)開(kāi)始證明。

例如,將論證分為兩種情況(g (x) > x^2 和 g (x) < x^2)的決定并不明顯,選擇 y * 的原因也是如此(在論證過(guò)程中,它的原因才變得明確)。此外,解決方案需要本科級(jí)別的微積分知識(shí)。

盡管如此,GPT-4 還是給出了一個(gè)正確的證明。

第二個(gè)關(guān)于算法和圖論的討論,則可以與研究生水平的面試相媲美。

對(duì)此,GPT-4 能夠?qū)σ粋€(gè)與約束滿足問(wèn)題相關(guān)的抽象圖構(gòu)造進(jìn)行推理,并從中得出關(guān)于 SAT 問(wèn)題的正確結(jié)論(據(jù)我們所知,這種構(gòu)造在數(shù)學(xué)文獻(xiàn)中并未出現(xiàn))。

這次對(duì)話反映出 GPT-4 對(duì)所討論的本科級(jí)數(shù)學(xué)概念的深刻理解,以及相當(dāng)程度的創(chuàng)造力。

盡管 GPT-4 在一次回答中把 2^n / 2 寫成了 2^n-1,但著似乎更像是我們俗稱的「筆誤」,因?yàn)樗髞?lái)提供了公式的正確推廣。

此外,研究者在兩個(gè)通常用作基準(zhǔn)的數(shù)學(xué)數(shù)據(jù)集上比較 GPT-4、ChatGPT 和 Minerva 的性能:GSM8K 和 MATH 。

結(jié)果發(fā)現(xiàn),GPT4 在每個(gè)數(shù)據(jù)集上的測(cè)試都超過(guò)了 Minerva,并且在兩個(gè)測(cè)試集的準(zhǔn)率都超過(guò) 80% 。

再來(lái)細(xì)看 GPT4 犯錯(cuò)的原因,68% 都是計(jì)算錯(cuò)誤,而不是解法錯(cuò)誤。

與世界互動(dòng)

智能另一個(gè)關(guān)鍵的體現(xiàn)就是交互性。

交互性對(duì)于智能很重要,因?yàn)樗怪悄荏w能夠獲取和應(yīng)用知識(shí),解決問(wèn)題,適應(yīng)不斷變化的情況,并實(shí)現(xiàn)超出其自身能力的目標(biāo)。

由此,研究者從工具使用和具體的交互兩個(gè)維度研究了 GPT-4 的交互性。GPT-4 在回答如下問(wèn)題時(shí)能夠搜索引擎或 API 等外部工具。

與人類互動(dòng)

論文中,研究者發(fā)現(xiàn)了 GPT-4 可以建立人類的心智模型。

研究設(shè)計(jì)了一系列測(cè)試來(lái)評(píng)估 GPT-4、ChatGPT 和 text-davinci-003 的心智理論的能力。比如理解信仰,GPT-4 成功通過(guò)了心理學(xué)中的 Sally-Anne 錯(cuò)誤信念測(cè)試。

還有測(cè)試 GPT-4 在復(fù)雜情境下推斷他人情緒狀態(tài)能力的表現(xiàn):

-湯姆為什么做出悲傷的表情?-亞當(dāng)認(rèn)為是什么導(dǎo)致了湯姆的悲傷表情?

通過(guò)多輪測(cè)試,研究人員發(fā)現(xiàn)在需要推理他人心理狀態(tài),并提出符合現(xiàn)實(shí)社交場(chǎng)景中的方案,GPT-4 表現(xiàn)優(yōu)于 ChatGPT 和 text-davinci-003。

局限性

GPT-4 所采用的「預(yù)測(cè)下一個(gè)詞」模式,存在著明顯的局限性:模型缺乏規(guī)劃、工作記憶、回溯能力和推理能力。

由于模型依賴于生成下一個(gè)詞的局部貪婪過(guò)程,而沒(méi)有對(duì)任務(wù)或輸出的全局產(chǎn)生深入的理解。因此,GPT-4 擅長(zhǎng)生成流暢且連貫的文本,但不擅長(zhǎng)解決無(wú)法以順序方式處理的復(fù)雜或創(chuàng)造性問(wèn)題。

比如,用范圍在 0 到 9 之間的四個(gè)隨機(jī)數(shù)進(jìn)行乘法和加法運(yùn)算。在這個(gè)連小學(xué)生都能解決的問(wèn)題上,GPT-4 的準(zhǔn)確率僅為 58%。

當(dāng)數(shù)字在 10 到 19 之間,以及在 20 到 39 之間時(shí),準(zhǔn)確率分別降至 16% 和 12%。當(dāng)數(shù)字在 99 到 199 的區(qū)間時(shí),準(zhǔn)確率直接降至 0。

然而,如果讓 GPT-4「花時(shí)間」回答問(wèn)題,準(zhǔn)確率很容易提高。比如要求模型使用以下提示寫出中間步驟:

116 * 114 + 178 * 157 = ?

讓我們一步一步思考,寫下所有中間步驟,然后再產(chǎn)生最終解。

此時(shí),當(dāng)數(shù)字在 1-40 的區(qū)間時(shí),準(zhǔn)確率高達(dá) 100%,在 1-200 的區(qū)間時(shí)也達(dá)到了 90%。

馬庫(kù)斯發(fā)文反駁

有意思的是,就在微軟這篇論文發(fā)表后不久,馬庫(kù)斯立馬寫出一篇博客,稱微軟的觀點(diǎn)「非?;闹嚒埂?/p>

并引用了圣經(jīng)中的一句話「驕傲在敗壞以先,狂心在跌倒之前。(箴 16:18)」

GPT-4 怎么就算得上早期 AGI 了?這么說(shuō)的話,計(jì)算器也算,Eliza 和 Siri 更算。這個(gè)定義就很模糊,很容易鉆空子。

在馬庫(kù)斯看來(lái),GPT-4 和 AGI 沒(méi)什么關(guān)系,而且 GPT-4 跟此前一樣,缺點(diǎn)依舊沒(méi)有解決,幻覺(jué)還存在,回答的不可靠性也沒(méi)有解決,甚至作者自己都承認(rèn)了復(fù)雜任務(wù)的計(jì)劃能力還是不行。

他的擔(dān)憂的是 OpenAI 和微軟的這 2 篇論文,寫的模型完全沒(méi)有披露,訓(xùn)練集和架構(gòu)什么都沒(méi)有,光靠一紙新聞稿,就想宣傳自己的科學(xué)性。

所以說(shuō)論文里號(hào)稱的「某種形式的 AGI」是不存在的,科學(xué)界根本無(wú)法對(duì)其進(jìn)行驗(yàn)證,因?yàn)橐矡o(wú)法獲得訓(xùn)練數(shù)據(jù),而且似乎訓(xùn)練數(shù)據(jù)已經(jīng)受到了污染。

更糟糕的是,OpenAI 已經(jīng)自己開(kāi)始將用戶實(shí)驗(yàn)納入訓(xùn)練語(yǔ)料庫(kù)了。這樣混淆視聽(tīng)后,科學(xué)界就沒(méi)法判斷 GPT-4 的一個(gè)關(guān)鍵能力了:模型是否有能力可以對(duì)新測(cè)試案例進(jìn)行歸納。

如果 OpenAI 不在這里給自己戴上科學(xué)的高帽子,馬庫(kù)斯可能也不會(huì)這么批判它。

他承認(rèn) GPT-4 是很強(qiáng)大,但是風(fēng)險(xiǎn)也是眾所周知。如果 OpenAI 缺乏透明度,并且拒絕公開(kāi)模型,不如直接關(guān)停。

強(qiáng)大作者陣容

微軟這篇長(zhǎng)達(dá) 154 頁(yè)的論文背后有著強(qiáng)大的作者陣容。

其中就包括:微軟雷德蒙德研究院首席研究員、2015 年斯隆獎(jiǎng)得主 Sébastien Bubeck、2023 新視野數(shù)學(xué)獎(jiǎng)得主 Ronen Eldan、2020 斯隆研究獎(jiǎng)得主 Yin Tat Lee、2023 新晉斯隆研究獎(jiǎng)得主李遠(yuǎn)志。

值得一提的是,微軟團(tuán)隊(duì)最初定的論文題目并不是「通用人工智能的火花:GPT-4 的早期實(shí)驗(yàn)」。

未刪減論文中泄漏的 latex 代碼顯示,最初題目是「與 AGI 的第一次接觸」。

參考資料:

  • https://arxiv.org/abs/2303.12712

  • https://twitter.com/DV2559106965076/status/1638769434763608064

  • https://the-decoder.com/gpt-4-has-a-trillion-parameters/

  • https://garymarcus.substack.com/p/the-sparks-of-agi-or-the-end-of-science

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:GPT4能力

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知