GPT-4 考過 MIT 風(fēng)波再爆大瓜。剛剛,MIT 共同作者親自澄清問題,竟因「豬隊友」搶發(fā),使用未經(jīng)允許的數(shù)據(jù)集釀成大禍。
論文作者「官方打假」來了!
前段時間,GPT-4 通過 MIT 數(shù)學(xué)本科考試,甚至拿了接近滿分成績引眾多網(wǎng)友圍觀。
然而,這篇論文剛發(fā)布,就被同校學(xué)生爆出「數(shù)據(jù)集」有問題,結(jié)果并不準確。
沒想到,爆料一出,AI 界大佬 LeCun、馬庫斯等紛紛出來發(fā)聲。
今天,來自 MIT 的論文作者正式給出了解釋。
讓人大跌眼鏡的是,作者之一的 Iddo Drori,竟然是在沒有得到其他人允許的情況下,擅自搶發(fā)了論文。
甚至有共同作者表示,自己是在周末外出旅行后,才得知論文已經(jīng)發(fā)了。
而且,Iddo 據(jù)稱不僅「隱瞞」了自己實際采用的方法,而且在發(fā)表前就已經(jīng)被告知,論文中還有問題沒有修改……
聲明全文
在 6 月 15 日,Iddo Drori 在 arXiv 上發(fā)布了一份與麻省理工學(xué)院(MIT)幾十門課程考試和作業(yè)數(shù)據(jù)相關(guān)的論文。
然而他這樣做并沒有得到許多共同作者的同意,盡管被告知在發(fā)表之前應(yīng)該糾正一些問題。而且我們當(dāng)中的一些人在周末外出旅行后,在 6 月 18 日星期天才得知論文已發(fā)。
在解決這個問題的過程中,我們發(fā)現(xiàn),與 Iddo Drori 向我們和收集數(shù)據(jù)的學(xué)生傳達的相反,Iddo 沒有得到所有導(dǎo)師的許可來收集構(gòu)成論文主題的作業(yè)和考試題的數(shù)據(jù)集。
當(dāng)論文在社交媒體上出現(xiàn),并且 Iddo 未經(jīng)任何人許可在網(wǎng)上發(fā)布數(shù)據(jù)樣本時,一些課程導(dǎo)師才了解到這個數(shù)據(jù)集的存在,以及他們的課程材料被納入其中。
這些都是正在通過機構(gòu)渠道進行處理嚴重的問題,因此我們沒有輕率地在公開場合對此進行聲明,但我們認為解釋為什么這篇論文不應(yīng)該被發(fā)表并且必須被撤回是很重要的。
我們已要求 Iddo 從 arXiv 上撤回論文,并直接聯(lián)系了 arXiv,解釋了這個情況。
我們想強調(diào)的是,在這篇論文中,所有學(xué)生作者都非常努力地工作,如果數(shù)據(jù)是經(jīng)過同意收集的話,這篇本來可能是非常有趣和有價值的論文。已發(fā)表的論文的許多問題并不是學(xué)生的過錯。
而且,GPT-4 不能獲得麻省理工學(xué)院學(xué)位。
網(wǎng)友:怕不是甩鍋吧
對于這份聲明,LeCun 轉(zhuǎn)發(fā)點評道,「感謝澄清」。
曾指出問題的 Raunak Chowdhuri,也已經(jīng)把更新進行了置頂。
不過,有網(wǎng)友指出,這篇論文的問題并不在于有沒有「同意」發(fā)表,而是在于「方法」本身。
而現(xiàn)在看起來是,這些作者希望自己的名字出現(xiàn)在這篇可能會爆火的論文上,但又不希望承擔(dān)出錯之后的責(zé)任。
如果論文并沒有被人「打假」,那么也不會有這篇所謂的「公開聲明」—— 迫使其中一些作者與論文割席。
顯然,作為論文的共同作者,你必須對你署名的工作質(zhì)量負責(zé)。
也有網(wǎng)友表示:「這是我一生中見過最糟的替罪羊?!?/p>
有趣的是,除了論文「造假」被人抓包之后的急忙甩鍋 —— 我雖然署名了,但這個問題和我無關(guān)。此前在頂會 IJCAI 2016 上也出現(xiàn)了原理相似的一幕 —— 在論文被接收后,瘋狂拉人。
「作者 X 其實參與了,只不過我們沒來得及寫上。」
就在接收名單發(fā)送后的第二天,我們發(fā)現(xiàn),有人試圖向他們已被接受的論文里添加額外的合作者。
我理解有時在論文提交后,可能會從同事那里得到非常重要的幫助,我們自己的研究組也偶爾這樣做。但突然有 50 多篇論文都需要,就有些奇怪了。
更令人驚訝的是,其中有很多人發(fā)現(xiàn),他們不僅有一位被遺忘的合作者,而是有「多位」(有時多達 4 個)被遺忘的合作者。
顯然,諺語「成功有很多父母,而失敗則無人問津」在這里得到了充分的體現(xiàn)。
不過,我們在審稿期間每周都會備份截圖,所以知道所有論文的原始作者。(這也是最終在接收名單上所呈現(xiàn)的)。
GPT-4 攻破 MIT 考試
GPT-4 在 MIT 考試中開掛這個結(jié)果一經(jīng)公布,吸引了眾多目光。
同樣的測試,GPT-3.5 搞定三分之一,而 GPT-4 全拿下了。
這張圖表,便成為論文中最亮眼的那一部分。
6 月 15 日,由 MIT、波士頓大學(xué),以及康奈爾大學(xué)的研究團隊發(fā)表最新論文,展示了 GPT-4 在 MIT 考試中的能力。
論文中,研究人員自制了一個數(shù)據(jù)集,其中涵蓋了 4550 個問題和解決方案。
這些包括,MIT 數(shù)學(xué)系和 EECS 的學(xué)生獲得本科學(xué)位的課程問題集、期中考試和期末考試。
具體如下:
研究人員從數(shù)據(jù)集中隨機生成 228 個問題,不涉及已有圖像和解決方案的問題。
然后,讓 5 個最先進的語言模型模型一起參加了這場考試:GPT-4、GPT-3.5、StableVicuna-13B、LLaMA-30B 和 LLaMA-60B。
最終結(jié)果發(fā)現(xiàn),經(jīng)過調(diào)優(yōu)后的 GPT-4,拿到了 100% 的分數(shù)。而原始版本的 GPT-4,沒有經(jīng)過任何調(diào)優(yōu),也拿下了 90% 的分數(shù)。
而具體調(diào)優(yōu)過程,如結(jié)果圖中所示,包括 Few-shot+CoT+Self-critique+Experts。
每增加一個調(diào)優(yōu)環(huán)節(jié),GPT-4 的能力也就躍升一步。
而這篇研究當(dāng)時有爭議的地方,就在于讓 GPT-4 給自己打分。
研究團隊在數(shù)據(jù)集上,微調(diào) GPT-4,給定問題 Q,基準解 S,和 LLM 的答案 A,便使用 GPT-4 自動對模型響應(yīng)進行了評分。
GPT-4 給自己打滿分,確實值得懷疑。
客座教授被指「搶發(fā)」論文
Iddo Drori
Iddo Drori 是波士頓大學(xué)計算機科學(xué)實踐副教授,麻省理工學(xué)院的客座副教授,以及哥倫比亞大學(xué)的兼職副教授。
此前曾是麻省理工學(xué)院 EECS 的講師,康奈爾大學(xué)運籌學(xué)和信息工程學(xué)的客座副教授,以及紐約大學(xué)數(shù)據(jù)科學(xué)中心、Courant 研究所和 NYU Tandon 的研究科學(xué)家和兼職教授。
他擁有計算機科學(xué)博士學(xué)位,并在斯坦福大學(xué)統(tǒng)計學(xué)領(lǐng)域進行過博士后研究。他還擁有組織行為學(xué)和創(chuàng)業(yè)管理的 MBA 學(xué)位,并擁有十年的工業(yè)研究和領(lǐng)導(dǎo)經(jīng)驗。
Iddo Drori 的主要研究領(lǐng)域是機器學(xué)習(xí)、人工智能和計算機視覺,發(fā)表了 70 篇論文,被引用超過 5200 次,教授過 35 門計算機科學(xué)課程。
他是劍橋大學(xué)出版社出版的教材《深度學(xué)習(xí)的科學(xué)》的作者。他在計算機視覺會議上贏得過多項競賽,并在機器學(xué)習(xí)會議上獲得過多個最佳論文獎項。
而就在剛剛,有網(wǎng)友敏銳地發(fā)現(xiàn):「Iddo 現(xiàn)在不僅去掉了 LinkedIn 主頁上『麻省理工學(xué)院客座教授』的頭銜,而且他的客座職位似乎即將在這個月結(jié)束?!?/p>
三位共同作者
Armando Solar-Lezama
Armando Solar-Lezama 是麻省理工學(xué)院的電氣工程和計算機科學(xué)(EECS)教授,同時也是計算機科學(xué)與人工智能實驗室(CSAIL)的副主任兼首席運營官。
他是由美國國家科學(xué)基金會(NSF)資助的 Expeditions 項目「通過代碼理解世界」的首席項目負責(zé)人,并且還是一個創(chuàng)建交互式演示文稿的在線平臺 ——playskript 的創(chuàng)始人。
他的研究重點是程序合成。這是一個令人興奮的研究領(lǐng)域,一方面,程序合成涉及使用自動推理和學(xué)習(xí)來幫助將更多自動化引入編程過程。另一方面,代碼提供了一種獨特的建模機制,因此程序合成可以在構(gòu)建更可預(yù)測和穩(wěn)健的學(xué)習(xí)系統(tǒng)方面發(fā)揮重要作用。
Tonio Buonassisi
Tonio Buonassisi 是麻省理工學(xué)院的機械工程教授。他的研究主要集中在太陽能光伏和技術(shù)經(jīng)濟分析領(lǐng)域,在許多公司的技術(shù)發(fā)展中發(fā)揮了重要作用,因此獲得了美國總統(tǒng)早期科學(xué)家和工程師獎(PECASE)、美國國家科學(xué)基金會職業(yè)獎(CAREER Award)和谷歌教師獎。
在 MIT,Tonio Buonassisi 是可持續(xù)發(fā)展加速材料實驗室的負責(zé)人,領(lǐng)導(dǎo)可持續(xù)材料開發(fā)的研究工作。他還曾擔(dān)任新加坡加速材料制造計劃的創(chuàng)始主任。此外,他還共同創(chuàng)辦了初創(chuàng)公司 Xinterra 以及非營利性組織 Fraunhofer 可持續(xù)能源系統(tǒng)中心。
Tonio Buonassisi 在教育方面展現(xiàn)出了極高的熱情和才能。他曾榮獲麻省理工學(xué)院 Everett Moore Baker 杰出本科教學(xué)獎,他的教學(xué)影響不僅局限于課堂,還通過其 OpenCourseware / YouTube 光伏講座系列獲得了超過 179,000 次觀看。他最近還制作了一系列名為「加速材料制造」的 YouTube 視頻,重點關(guān)注人工智能在材料研究中的應(yīng)用。
Yoon Kim
Yoon Kim 是麻省理工學(xué)院(EECS / CSAIL)的助理教授。之前在哈佛大學(xué)獲得計算機科學(xué)博士學(xué)位,導(dǎo)師是 Alexander Rush。
他的研究興趣包括:大規(guī)模模型的高效訓(xùn)練和部署、理解大語言模型的能力和限制、用符號機制控制和增強神經(jīng)網(wǎng)絡(luò)、計算和人類語言處理之間的聯(lián)系。
變了味的研究
現(xiàn)在,GPT-4 可以說是已經(jīng)被推崇成了 LLM 領(lǐng)域的全新「基準」。
這種趨勢一方面在迫使研究人員將自己的工作與其進行比較,另一方面又催生了相當(dāng)一部分只為跟風(fēng)和炒作的研究。
不僅如此,OpenAI 在 GPT-4 技術(shù)報告中開創(chuàng)的「黑盒」方法,也被其他人紛紛效仿。
在 HackerNews 的討論中,一位用戶表示,機器學(xué)習(xí)已經(jīng)不再是一個科學(xué)領(lǐng)域,而是變得像社會科學(xué)一樣,建立在另一種不可證偽和不可重現(xiàn)的研究之上。
有媒體稱,這次事件無疑是在人工智能領(lǐng)域樹立了一個糟糕的先例,讓大家對研究的真實性產(chǎn)生了質(zhì)疑 —— 互聯(lián)網(wǎng)上有多少論文實際上是有問題的?
隨著「基準」GPT-4 開始涉足文章的撰寫階段,論文的質(zhì)量預(yù)計還會有進一步下降。
參考資料:
https://people.csail.mit.edu/asolar/CoursesPaperStatement.pdf
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。