萬(wàn)萬(wàn)想不到啊,MIT 數(shù)學(xué)考試,被 GPT-4 攻破了?!
突然有人在最新論文工作中高調(diào)宣布:
GPT-4 在 MIT 的數(shù)學(xué)和 EECS(電氣工程和計(jì)算機(jī)科學(xué)系)本科學(xué)位考試中,表現(xiàn)出的能力完全滿足畢業(yè)要求。
而且妥妥地拿下滿分!
要知道,測(cè)出這個(gè)結(jié)果的不是別人,正是來(lái)自 MIT 和波士頓大學(xué)、康奈爾大學(xué)的研究團(tuán)隊(duì)。
而且強(qiáng)如上一代王者 GPT-3.5,在同樣的測(cè)試中,只成功搞定了三分之一。
△GPT-3.5 考試成績(jī)
論文一出,無(wú)數(shù)目光迅速被吸引過來(lái)。
GPT-4 這樣看似開掛的行為,自然引發(fā)了不少網(wǎng)友的感慨。
比 GPT-3.5 強(qiáng)好多,好耶!
咱就是說(shuō),有沒有可能以后不需要比 GPT-4 更強(qiáng)的模型,來(lái)解決學(xué)術(shù)問題了?
還有網(wǎng)友展現(xiàn)了自己網(wǎng)上沖浪的“前沿性”,玩了個(gè)這兩天 Yann LeCun 吐槽“GPT-4 智商不如狗”的梗:
GPT-4 開掛 MIT 考試
具體來(lái)說(shuō),GPT-4 這次是參與了這樣一場(chǎng)測(cè)試:
研究團(tuán)隊(duì)策劃了一個(gè)數(shù)據(jù)集,其中包含 4550 個(gè)問題和解決方案。
這 4550 個(gè)問題和解決方案,來(lái)自 MIT 數(shù)學(xué)系和 EECS 的學(xué)生獲得本科學(xué)位,需要學(xué)習(xí)的課程問題集、期中考試和期末考試。
包括:
6-1:電氣科學(xué)與工程;
6-2:電氣工程與計(jì)算機(jī)科學(xué);
6-3:計(jì)算機(jī)科學(xué)與工程;
6-4:人工智能與決策;
18-1:普通數(shù)學(xué);
18-2:應(yīng)用數(shù)學(xué);
18-3:純數(shù)學(xué);
18-C:數(shù)學(xué)與計(jì)算機(jī)科學(xué)。
題目統(tǒng)統(tǒng)出自 MIT 的數(shù)據(jù)集,從中隨機(jī)生成 228 個(gè)問題,不涉及圖像和已有解決方案的問題。
題目的難度等級(jí)由易到難依次為:練習(xí)、習(xí)題、 期中考試、期末考試、實(shí)驗(yàn)和專題。
按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數(shù)值、表達(dá)式和圖像。
這一次,參與考試的不只有 GPT-4 和 GPT-3.5,還有 StableVicuna-13B、LLaMA-30B 和 LLaMA-60B。
選擇讓這 4 個(gè)大模型作為考試參賽選手,原因是它們是“最先進(jìn)的大語(yǔ)言模型”。
通過表格里的數(shù)據(jù)可以看到,得分最高的是經(jīng)過調(diào)優(yōu)后的 GPT-4,得分率 100%;表現(xiàn)最一般的是 LLaMA-30B,只拿下了 30% 的分?jǐn)?shù)。
值得關(guān)注的是,原始版本的 GPT-4 開箱即用,完全不經(jīng)過調(diào)優(yōu),在本次 MIT 考試中也拿到了 90% 的分?jǐn)?shù)。
調(diào)優(yōu)流程,包括 Few-Shot+CoT+Self-critique+Experts。
從最終考試成績(jī)的表格數(shù)據(jù)可以看到,從左到右每增加一個(gè)環(huán)節(jié),調(diào)優(yōu)后的 GPT-4 得分都會(huì)更上一層樓。
此外,研究團(tuán)隊(duì)還在提示框里進(jìn)行了工程優(yōu)化,具體的“咒語(yǔ)”如下:
等等,評(píng)分人是 GPT-4 自己?
看到這樣的結(jié)果,不少網(wǎng)友心生感慨,LLM 在數(shù)學(xué)考試上的進(jìn)步,未免有些神速了哈。
2 年前,AI 還在苦苦掙扎小學(xué)數(shù)學(xué)問題。
類似“小明種了 5 棵檸檬樹,每年從每棵樹上得到 6 個(gè)檸檬,10 年間他總共得到多少檸檬”這種。
去年年初,MIT + 哈佛 + 哥倫比亞大學(xué) + 滑鐵盧大學(xué)的聯(lián)合研究表示,把數(shù)學(xué)問題轉(zhuǎn)換成等價(jià)的編程問題,就可以讓 GPT-3 的同門師兄弟 ——OpenAI 的 Codex 掌握高數(shù),達(dá)到 MIT 本科水平。
學(xué)了 6 門 MIT 本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題,6 門課程每門隨機(jī)出 25 道題,再加上一個(gè) ACT 水平(美國(guó)高考)的數(shù)據(jù)集里的 60 道題。
總計(jì) 210 道題,AI 全部答對(duì)。
不過有人提出,AI 達(dá)到的“MIT 本科水平”,實(shí)際是 Codex 在做語(yǔ)言題而非數(shù)學(xué)題 ——
因?yàn)楫?dāng)時(shí)的評(píng)測(cè)中,Codex 負(fù)責(zé)讀寫,并不包括求解。
所以,這一回 GPT-4 表現(xiàn)奇佳,怎一個(gè)妙字了得~
好了,知道你很著急夸它,但你先別著急夸它,因?yàn)楹芸煊腥税l(fā)現(xiàn)了一些“詭異”。
主要有 2 大槽點(diǎn)。
第一個(gè)值得質(zhì)疑一番的,就是 OpenAI 的訓(xùn)練數(shù)據(jù)集沒有完全公布。
這也就意味著,無(wú)法證明數(shù)據(jù)集中的 4550 個(gè)問題和解決方案,在 GPT-4 的訓(xùn)練集中不存在。
換句話說(shuō),如果 GPT-4 在預(yù)訓(xùn)練階段已經(jīng)接觸到了這次的考題們,那最終拿下完美得分,就沒什么好驚喜的了。
也難怪乎有網(wǎng)友毫不客氣地 yygq,認(rèn)定 GPT-4 拿到這樣的結(jié)果,一定是數(shù)據(jù)集已經(jīng)包含在訓(xùn)練數(shù)據(jù)里了。
第二個(gè)槽點(diǎn),就是 GPT-4 最后 100% 的得分率,似乎哪里不對(duì)勁???
定睛一看,在論文的第 2.6 節(jié)有一句很關(guān)鍵的點(diǎn):
團(tuán)隊(duì)在數(shù)據(jù)集上微調(diào)開源大模型,“給定問題 Q、基本事實(shí)解 S 和 LLM 答案 A,我們使用 GPT-4 自動(dòng)對(duì)模型響應(yīng)進(jìn)行評(píng)分”。
實(shí)際操作上,就是每個(gè)大模型生成這次考試的答案,然后派出 GPT-4 打分,分值在 0-5 之間。
所以給 GPT-4 打出滿分的,實(shí)際上是 GPT-4 自己。
啊這…… 很難說(shuō)沒有王婆賣瓜自賣自夸的嫌疑。
此外,關(guān)于要給 GPT-4 提供“好的提示”,才能讓它達(dá)到滿分成績(jī),也讓許多人抱有微詞。
到底什么算“好的提示”呢?似乎無(wú)法定義。
甚至有人喊著,應(yīng)該把這些題丟給 MIT 數(shù)學(xué)和 EECS 的學(xué)生去做,并不斷給他們“好的提示”,這樣人類學(xué)生也能拿下 100% 的吧……
One More Thing
一個(gè)小小的彩蛋:
整個(gè)測(cè)試中,基本上可以在筆記本電腦上部署運(yùn)行的 StableVicuna-13B,也有 48% 的得分率。
這個(gè)成績(jī),不僅比模型更大的 LLaMA-65B 高出近 10 個(gè)百分點(diǎn),就連 MIT fine-tuing 過后的 LLaMA-30B,還要高。
讓人不得不陷入一些關(guān)于模型規(guī)模與能力相關(guān)性的思考。
參考鏈接:
[1]https://arxiv.org/abs/2306.08997
[2]https://twitter.com/johnjnay/status/1669687958960586753
[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792
[4]https://twitter.com/emollick/status/1669742473097228292
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:衡宇
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。