首頁(yè) > 科學(xué)探索>科技前沿

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

量子位 2023/6/19 11:45:02 責(zé)編：夢(mèng)澤

評(píng)論：

萬(wàn)萬(wàn)想不到啊，MIT 數(shù)學(xué)考試，被 GPT-4 攻破了？！

突然有人在最新論文工作中高調(diào)宣布：

GPT-4 在 MIT 的數(shù)學(xué)和 EECS（電氣工程和計(jì)算機(jī)科學(xué)系）本科學(xué)位考試中，表現(xiàn)出的能力完全滿足畢業(yè)要求。

而且妥妥地拿下滿分！

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

要知道，測(cè)出這個(gè)結(jié)果的不是別人，正是來(lái)自 MIT 和波士頓大學(xué)、康奈爾大學(xué)的研究團(tuán)隊(duì)。

而且強(qiáng)如上一代王者 GPT-3.5，在同樣的測(cè)試中，只成功搞定了三分之一。

△GPT-3.5 考試成績(jī)

論文一出，無(wú)數(shù)目光迅速被吸引過來(lái)。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

GPT-4 這樣看似開掛的行為，自然引發(fā)了不少網(wǎng)友的感慨。

比 GPT-3.5 強(qiáng)好多，好耶！

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

咱就是說(shuō)，有沒有可能以后不需要比 GPT-4 更強(qiáng)的模型，來(lái)解決學(xué)術(shù)問題了？

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

還有網(wǎng)友展現(xiàn)了自己網(wǎng)上沖浪的“前沿性”，玩了個(gè)這兩天 Yann LeCun 吐槽“GPT-4 智商不如狗”的梗：

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

GPT-4 開掛 MIT 考試

具體來(lái)說(shuō)，GPT-4 這次是參與了這樣一場(chǎng)測(cè)試：

研究團(tuán)隊(duì)策劃了一個(gè)數(shù)據(jù)集，其中包含 4550 個(gè)問題和解決方案。

這 4550 個(gè)問題和解決方案，來(lái)自 MIT 數(shù)學(xué)系和 EECS 的學(xué)生獲得本科學(xué)位，需要學(xué)習(xí)的課程問題集、期中考試和期末考試。

包括：

6-1：電氣科學(xué)與工程；

6-2：電氣工程與計(jì)算機(jī)科學(xué)；

6-3：計(jì)算機(jī)科學(xué)與工程；

6-4：人工智能與決策；

18-1：普通數(shù)學(xué)；

18-2：應(yīng)用數(shù)學(xué)；

18-3：純數(shù)學(xué)；

18-C：數(shù)學(xué)與計(jì)算機(jī)科學(xué)。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

△ 每個(gè)專業(yè)的詳細(xì)分類總結(jié)

題目統(tǒng)統(tǒng)出自 MIT 的數(shù)據(jù)集，從中隨機(jī)生成 228 個(gè)問題，不涉及圖像和已有解決方案的問題。

題目的難度等級(jí)由易到難依次為：練習(xí)、習(xí)題、期中考試、期末考試、實(shí)驗(yàn)和專題。

按答案類型排序，題目的難度由易到難依次為：編程、開放、選擇題、數(shù)值、表達(dá)式和圖像。

這一次，參與考試的不只有 GPT-4 和 GPT-3.5，還有 StableVicuna-13B、LLaMA-30B 和 LLaMA-60B。

選擇讓這 4 個(gè)大模型作為考試參賽選手，原因是它們是“最先進(jìn)的大語(yǔ)言模型”。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

△ 最終考試成績(jī)

通過表格里的數(shù)據(jù)可以看到，得分最高的是經(jīng)過調(diào)優(yōu)后的 GPT-4，得分率 100%；表現(xiàn)最一般的是 LLaMA-30B，只拿下了 30% 的分?jǐn)?shù)。

值得關(guān)注的是，原始版本的 GPT-4 開箱即用，完全不經(jīng)過調(diào)優(yōu)，在本次 MIT 考試中也拿到了 90% 的分?jǐn)?shù)。

調(diào)優(yōu)流程，包括 Few-Shot+CoT+Self-critique+Experts。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

從最終考試成績(jī)的表格數(shù)據(jù)可以看到，從左到右每增加一個(gè)環(huán)節(jié)，調(diào)優(yōu)后的 GPT-4 得分都會(huì)更上一層樓。

此外，研究團(tuán)隊(duì)還在提示框里進(jìn)行了工程優(yōu)化，具體的“咒語(yǔ)”如下：

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

等等，評(píng)分人是 GPT-4 自己？

看到這樣的結(jié)果，不少網(wǎng)友心生感慨，LLM 在數(shù)學(xué)考試上的進(jìn)步，未免有些神速了哈。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

2 年前，AI 還在苦苦掙扎小學(xué)數(shù)學(xué)問題。

類似“小明種了 5 棵檸檬樹，每年從每棵樹上得到 6 個(gè)檸檬，10 年間他總共得到多少檸檬”這種。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

去年年初，MIT + 哈佛 + 哥倫比亞大學(xué) + 滑鐵盧大學(xué)的聯(lián)合研究表示，把數(shù)學(xué)問題轉(zhuǎn)換成等價(jià)的編程問題，就可以讓 GPT-3 的同門師兄弟 ——OpenAI 的 Codex 掌握高數(shù)，達(dá)到 MIT 本科水平。

學(xué)了 6 門 MIT 本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題，6 門課程每門隨機(jī)出 25 道題，再加上一個(gè) ACT 水平（美國(guó)高考）的數(shù)據(jù)集里的 60 道題。

總計(jì) 210 道題，AI 全部答對(duì)。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

不過有人提出，AI 達(dá)到的“MIT 本科水平”，實(shí)際是 Codex 在做語(yǔ)言題而非數(shù)學(xué)題 ——

因?yàn)楫?dāng)時(shí)的評(píng)測(cè)中，Codex 負(fù)責(zé)讀寫，并不包括求解。

所以，這一回 GPT-4 表現(xiàn)奇佳，怎一個(gè)妙字了得～

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

好了，知道你很著急夸它，但你先別著急夸它，因?yàn)楹芸煊腥税l(fā)現(xiàn)了一些“詭異”。

主要有 2 大槽點(diǎn)。

第一個(gè)值得質(zhì)疑一番的，就是 OpenAI 的訓(xùn)練數(shù)據(jù)集沒有完全公布。

這也就意味著，無(wú)法證明數(shù)據(jù)集中的 4550 個(gè)問題和解決方案，在 GPT-4 的訓(xùn)練集中不存在。

換句話說(shuō)，如果 GPT-4 在預(yù)訓(xùn)練階段已經(jīng)接觸到了這次的考題們，那最終拿下完美得分，就沒什么好驚喜的了。

也難怪乎有網(wǎng)友毫不客氣地 yygq，認(rèn)定 GPT-4 拿到這樣的結(jié)果，一定是數(shù)據(jù)集已經(jīng)包含在訓(xùn)練數(shù)據(jù)里了。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

第二個(gè)槽點(diǎn)，就是 GPT-4 最后 100% 的得分率，似乎哪里不對(duì)勁？？？

定睛一看，在論文的第 2.6 節(jié)有一句很關(guān)鍵的點(diǎn)：

團(tuán)隊(duì)在數(shù)據(jù)集上微調(diào)開源大模型，“給定問題 Q、基本事實(shí)解 S 和 LLM 答案 A，我們使用 GPT-4 自動(dòng)對(duì)模型響應(yīng)進(jìn)行評(píng)分”。

實(shí)際操作上，就是每個(gè)大模型生成這次考試的答案，然后派出 GPT-4 打分，分值在 0-5 之間。

所以給 GPT-4 打出滿分的，實(shí)際上是 GPT-4 自己。

啊這…… 很難說(shuō)沒有王婆賣瓜自賣自夸的嫌疑。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

此外，關(guān)于要給 GPT-4 提供“好的提示”，才能讓它達(dá)到滿分成績(jī)，也讓許多人抱有微詞。

到底什么算“好的提示”呢？似乎無(wú)法定義。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

甚至有人喊著，應(yīng)該把這些題丟給 MIT 數(shù)學(xué)和 EECS 的學(xué)生去做，并不斷給他們“好的提示”，這樣人類學(xué)生也能拿下 100% 的吧……

One More Thing

一個(gè)小小的彩蛋：

整個(gè)測(cè)試中，基本上可以在筆記本電腦上部署運(yùn)行的 StableVicuna-13B，也有 48% 的得分率。

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

這個(gè)成績(jī)，不僅比模型更大的 LLaMA-65B 高出近 10 個(gè)百分點(diǎn)，就連 MIT fine-tuing 過后的 LLaMA-30B，還要高。

讓人不得不陷入一些關(guān)于模型規(guī)模與能力相關(guān)性的思考。

參考鏈接：

[1]https://arxiv.org/abs/2306.08997
[2]https://twitter.com/johnjnay/status/1669687958960586753
[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792
[4]https://twitter.com/emollick/status/1669742473097228292

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：衡宇

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4 滿分通過 MIT 本科數(shù)學(xué)考試，這套提示詞火了

GPT-4 開掛 MIT 考試

等等，評(píng)分人是 GPT-4 自己？

One More Thing

相關(guān)文章

等等，評(píng)分人是 GPT-4 自己？