【新智元導(dǎo)讀】斯坦福學(xué)者發(fā)現(xiàn),GPT-4 對(duì)于 Nature、ICLR 的論文給出的審稿意見(jiàn),竟然和人類審稿人有超過(guò) 50% 的相似性??磥?lái)讓大模型來(lái)幫我們審論文,并不是天方夜譚啊。
GPT-4,已經(jīng)成功晉身審稿人!
最近,來(lái)自斯坦福大學(xué)等機(jī)構(gòu)的研究者把數(shù)千篇來(lái)自 Nature、ICLR 等的頂會(huì)文章丟給了 GPT-4,讓它生成評(píng)審意見(jiàn)、修改建議,然后和人類審稿人給出的意見(jiàn)相比較。
論文地址:https://arxiv.org/ abs / 2310.01783
結(jié)果,GPT-4 不僅完美勝任了這項(xiàng)工作,甚至比人類做得還好!
在它給出的意見(jiàn)中,超 50% 和至少一名人類審稿人一致。
并且超過(guò) 82.4% 的作者表示,GPT-4 給出的意見(jiàn)相當(dāng)有幫助。
論文作者 James Zou 總結(jié)道:我們?nèi)匀恍枰哔|(zhì)量的人工反饋,但 LLM 可以幫助作者在正式的同行評(píng)審之前,改進(jìn)自己的論文初稿。
GPT-4 給你的意見(jiàn),可能比人類都好
所以,怎樣讓 LLM 給你審稿呢?
非常簡(jiǎn)單,只要從論文 PDF 中提取出文本,喂給 GPT-4,它就立刻生成反饋了。
具體來(lái)說(shuō),我們要對(duì)一個(gè) PDF 提取、解析論文的標(biāo)題、摘要、圖形、表格標(biāo)題、主要文本。
然后告訴 GPT-4,你需要遵循業(yè)內(nèi)頂尖的期刊會(huì)議的審稿反饋形式,包括四個(gè)部分 —— 成果是否重要、是否新穎,論文被接受的理由,論文被拒的理由,改進(jìn)建議。
從下圖可以看到,GPT-4 給出了非常有建設(shè)性的意見(jiàn),反饋包括四部分。
這篇論文有什么缺陷?
GPT-4 一針見(jiàn)血地指出:雖然論文提及了模態(tài)差距現(xiàn)象,但并沒(méi)有提出縮小差距的方法,也沒(méi)有證明這樣做的好處。
研究者對(duì) 3,096 篇 Nature 系列論文和 1,709 篇 ICLR 論文的人類反饋和 LLM 反饋進(jìn)行了對(duì)比。
兩階段評(píng)論匹配管線會(huì)分別提取出 LLM 和人類反饋中的評(píng)論點(diǎn),然后執(zhí)行語(yǔ)義文本匹配,來(lái)匹配 LLM 和人類反饋之間的共同評(píng)論點(diǎn)。
下圖就是一個(gè)具體的兩階段評(píng)論匹配管線。
對(duì)于每條配對(duì)評(píng)論,相似度評(píng)級(jí)都會(huì)給出理由。
研究者將相似度閾值設(shè)為 7,弱匹配的評(píng)論就會(huì)被過(guò)濾掉。
在 Nature 和 ICLR 兩個(gè)數(shù)據(jù)集中,論文和人類評(píng)論的平均 token 長(zhǎng)度分別如下。
這項(xiàng)研究有美國(guó) 110 個(gè) AI 機(jī)構(gòu)和計(jì)算生物學(xué)機(jī)構(gòu)的 308 名研究員參與。
每位研究者都上傳了自己撰寫的論文,看了 LLM 的反饋,然后填寫了自己對(duì)于 LLM 反饋的評(píng)價(jià)和感受。
結(jié)果顯示,研究者普遍認(rèn)為,跟人類評(píng)審的結(jié)果相比,LLM 生成的反饋與之有很大的重疊,通常很有幫助。
如果說(shuō)有什么缺點(diǎn)的話,就是在具體性上稍差一些。
如下圖所示,對(duì)于提交給 Nature 的論文,大約三分之一(30.85%) 的 GPT-4 意見(jiàn)與人類審稿人意見(jiàn)重合。
在 ICLR 論文中,超過(guò)三分之一(39.23%) 的 GPT-4 意見(jiàn)與人類審稿人意見(jiàn)重合。
LLM 與人類審稿人,偏重略有不同
以下是對(duì)同一篇 ICLR 論文的 LLM 評(píng)論和人類評(píng)論,可以看出,LLM 的眼光很毒辣,評(píng)論很一針見(jiàn)血。
比如與先前研究的對(duì)比上,人類審稿員表示:
比較是有缺陷的。尤其是 GNN 方法的標(biāo)簽一致性和中心一致性損失都沒(méi)有考慮到。更公平的比較應(yīng)該是使用兩種損失都考慮到的 GNN 方法。
而 GPT-4 的評(píng)價(jià)是:
論文缺乏與現(xiàn)有方法的徹底的比較。雖然作者對(duì)于一些方法比較了基線,但還需要更全面的比較。
在理論可靠性上,人類審稿人給出了這樣的意見(jiàn) ——
恕我直言,理論的證明太瑣碎了。最終結(jié)論是如果相似度合適,預(yù)測(cè)的動(dòng)作就是準(zhǔn)確的。由于模型正在學(xué)習(xí)正確的相似度,也就相當(dāng)于說(shuō)模型 h 如果經(jīng)過(guò)良好的訓(xùn)練,輸出就是正確的。這是顯然的事。
而 GPT-4 的意見(jiàn)是:
作者應(yīng)該提供更多理論分析,來(lái)比較信息傳遞和一致性約束之間的聯(lián)系,這樣能讓讀者更易于理解。
在研究的可復(fù)現(xiàn)性上,人類審稿員希望論文能夠提供代碼,好讓其他讀者也能復(fù)現(xiàn)實(shí)驗(yàn)。
GPT-4 對(duì)此也給出了相同意見(jiàn):「作者應(yīng)該提供有關(guān)實(shí)驗(yàn)設(shè)置的更多詳細(xì)信息,來(lái)確保研究的可復(fù)現(xiàn)性?!?/p>
參與調(diào)查的用戶普遍認(rèn)為,LLM 的反饋可以幫助提高評(píng)審的準(zhǔn)確性,減少人類評(píng)審員的工作量。而且大多數(shù)用戶打算再次使用 LLM 反饋系統(tǒng)。
有趣的是,相比人類審稿人,LLM 審稿員有自己獨(dú)有的特點(diǎn)。
比如,它提及影響因子的頻率,是人類審稿人的 7.27 倍。
人類審稿人會(huì)更可能要求補(bǔ)充額外的消融實(shí)驗(yàn) ablation experiments,而 LLM 則會(huì)注重于要求在更多的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
網(wǎng)友們紛紛表示:這項(xiàng)工作很了不起!
也有人說(shuō),其實(shí)我早就這么干了,我一直在用各種 LLM 幫我總結(jié)和改進(jìn)論文。
有人問(wèn),所以 GPT 評(píng)審會(huì)不會(huì)為了迎合如今的同行評(píng)審標(biāo)準(zhǔn),讓自己有偏見(jiàn)呢?
也有人提出,量化 GPT 和人類評(píng)審意見(jiàn)的重合,這個(gè)指標(biāo)有用嗎?
要知道,在理想情況下,審稿人不應(yīng)該有太多重合意見(jiàn),選擇他們的原意是讓他們提供不同的觀點(diǎn)。
不過(guò)至少,這項(xiàng)研究讓我們知道,LLM 確實(shí)可以用作改論文神器了。
三步,讓 LLM 給你審稿
1. 創(chuàng)建一個(gè) PDF 解析服務(wù)器并在后臺(tái)運(yùn)行:
conda env create -f conda_environment.yml
conda activate ScienceBeam
python -m sciencebeam_parser.service.server --port=8080 # Make sure this is running in the background
2. 創(chuàng)建并運(yùn)行 LLM 反饋服務(wù)器:
conda create -n llm python=3.10
conda activate llm
pip install -r requirements.txt
cat YOUR_OPENAI_API_KEY > key.txt # Replace YOUR_OPENAI_API_KEY with your OpenAI API key starting with "sk-"
python main.py
3. 打開(kāi)網(wǎng)頁(yè)瀏覽器并上傳你的論文:
打開(kāi) http://0.0.0.0:7799 并上傳論文,就可以在大約 120 秒內(nèi)得到 LLM 生成的反饋。
作者介紹
Weixin Liang(梁偉欣)
Weixin Liang 是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生,以及斯坦福人工智能實(shí)驗(yàn)室(SAIL)的成員,由 James Zou 教授的指導(dǎo)。
在此之前,他在斯坦福大學(xué)獲得電子工程碩士學(xué)位,師從 James Zou 教授和 Zhou Yu 教授;在浙江大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,師從 Kai Bu 教授和 Mingli Song 教授。
他曾在亞馬遜 Alexa AI、蘋果和騰訊進(jìn)行過(guò)實(shí)習(xí),并曾與 Daniel Jurafsky 教授、Daniel A. McFarland 教授和 Serena Yeung 教授合作過(guò)。
Yuhui Zhang
Yuhui Zhang 是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的博士生,由 Serena Yeung 教授的指導(dǎo)。
他的研究方向是構(gòu)建多模態(tài)人工智能系統(tǒng)和開(kāi)發(fā)從多模態(tài)信息中獲益的創(chuàng)意應(yīng)用。
在此之前,他在清華大學(xué)和斯坦福大學(xué)完成了本科和碩士學(xué)業(yè),并與 James Zou 教授、Chris Manning 教授、Jure Leskovec 教授等出色的研究人員合作過(guò)。
Hancheng Cao(曹瀚成)
Hancheng Cao 是斯坦福大學(xué)計(jì)算機(jī)科學(xué)系六年級(jí)的博士生(輔修管理科學(xué)與工程專業(yè)),同時(shí)也是斯坦福大學(xué) NLP 小組和人機(jī)交互小組的成員,由 Dan McFarland 教授和 Michael Bernstein 教授指導(dǎo)。
他于 2018 年以優(yōu)異成績(jī)獲得清華大學(xué)電子工程系學(xué)士學(xué)位。
2015 年起,他在清華大學(xué)擔(dān)任研究助理,導(dǎo)師為李勇教授和 Vassilis Kostakos 教授(墨爾本大學(xué))。2016 年秋,他在馬里蘭大學(xué)杰出大學(xué)教授 Hanan Samet 教授的指導(dǎo)下工作。2017 年夏,他作為交換生和研究助理在麻省理工學(xué)院媒體實(shí)驗(yàn)室人類動(dòng)力學(xué)小組工作,由 Alex 'Sandy' Pentland 教授 Xiaowen Dong 教授指導(dǎo)。
他的研究興趣涉及計(jì)算社會(huì)科學(xué)、社會(huì)計(jì)算和數(shù)據(jù)科學(xué)。
參考資料:
https://arxiv.org/abs/2310.01783
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。