設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

ChatGPT 也在評(píng)審你的頂會(huì)投稿,斯坦福新研究捅了馬蜂窩

量子位 2024/4/2 17:44:14 責(zé)編:汪淼

尷了個(gè)大尬!

人們還在嘲諷有人用 ChatGPT 寫論文忘了刪掉“狐貍尾巴”,另一邊審稿人也被曝出用 ChatGPT 寫同行評(píng)論了。而且,還是來(lái)自 ICLR、NeurIPS 等頂會(huì)的那種。

來(lái)自斯坦福的學(xué)者對(duì)一些頂級(jí) AI 會(huì)議(如 ICLR、NeurIPS、CoRL 等)中的審稿意見進(jìn)行了分析,結(jié)果發(fā)現(xiàn) ——

在 ChatGPT 出現(xiàn)之后,這些同行評(píng)論的“AI 含量”大增,最多的高達(dá) 16.9%,而有 ChatGPT 之前這個(gè)比例大約是 2%。

證據(jù)也很直觀,AI 常用的詞匯出現(xiàn)頻率,在 ChatGPT 發(fā)布之后噌的一下就上去了。

消息一出,Reddit 的機(jī)器學(xué)習(xí)板塊立刻就炸了鍋,有網(wǎng)友直呼:閉環(huán)了!

在 X 上,也有人發(fā)出了同樣的疑問(wèn):

既然寫論文和審稿都是大模型在干,那科學(xué)家去干什么了?

那么,這究竟是怎么一回事呢?

頂會(huì)審稿意見 AI 含量超 1/6

來(lái)自斯坦福大學(xué)多個(gè)學(xué)院以及加州大學(xué)圣芭芭拉分校的研究人員發(fā)表了一項(xiàng)研究,主題是關(guān)于 ChatGPT 對(duì) AI 學(xué)術(shù)會(huì)議同行評(píng)審的影響。

研究人員一共分析了 ICLR、NeurIPS、CoRL 和 EMNLP 這四個(gè)頂會(huì)中的同行評(píng)審意見,對(duì)其“AI 含量”進(jìn)行了計(jì)算。

  • ICLR 2024:估計(jì) α 值為 10.6%

  • NeurIPS 2023:估計(jì) α 值為 9.1%

  • CoRL 2023:估計(jì) α 值為 6.5%

  • EMNLP 2023:估計(jì) α 值為 16.9%,超過(guò)了 1/6

(α 值指在所有內(nèi)容中疑似由 AI 生成或“顯著修改”的內(nèi)容所占的比例)

而在 ChatGPT 問(wèn)世之前,α 值的水平大約是在 2%,作為對(duì)照的 Nature 系列期刊評(píng)審意見的 α 值則未發(fā)生顯著變化。

除了得出這些數(shù)據(jù),研究人員還發(fā)現(xiàn)了“AI 含量”較高的評(píng)審意見大多具有一些共同特點(diǎn)。

從內(nèi)容角度上看,“AI 含量”高的意見,引用的作者中包括“et al.”的學(xué)術(shù)內(nèi)容也較少

而且,“AI 含量”高的內(nèi)容,在語(yǔ)義上也更加同質(zhì)化,比如“commendable”(值得稱贊的)、“meticulous”(細(xì)致的)和“intricate”(復(fù)雜的)等形容詞大量出現(xiàn)。

同時(shí)作者也展示了在 AI 生成的內(nèi)容中出現(xiàn)最頻繁的形容詞和副詞各 100 個(gè),下圖中字號(hào)越大代表出現(xiàn)頻率越高。

而除了內(nèi)容本身,高“AI 含量”的內(nèi)容的作者在行為上也表現(xiàn)出了一些共同之處。

一是提交的時(shí)間更加接近截止期限,特別是截止前三天提交的意見“AI 含量”明顯更高。

除了提交時(shí)間晚,高“AI 含量”意見的作者,普遍對(duì)自己提交的內(nèi)容自信程度也更低。

評(píng)審者對(duì)自己評(píng)審意見信心水平的自我評(píng)估(滿分 5 分)結(jié)果顯示,“AI 含量”較高的審稿人,自我評(píng)分也更低(不大于 2 分)。

此外,對(duì)自己的審稿意見自信程度低的另一個(gè)表現(xiàn)是,他們也較少對(duì)論文作者反駁做出回應(yīng)。

在 ICLR 2024 和 NeurIPS 2023 上,這類審稿人中有超過(guò) 12.5% 從未對(duì)反駁意見做出任何回復(fù),約 10% 只回復(fù)了一次。

那么,作者又是如何分析出這些審稿意見中的 AI 含量的呢?

為此,研究人員設(shè)計(jì)了一種分布式“GPT 量化”方法,能夠在語(yǔ)料庫(kù)級(jí)別有效估計(jì) AI 含量,而不必逐篇分析。

首先,研究人員收集了已知由人類編寫(ChatGPT 出現(xiàn)前的審稿意見)和 AI 生成(由研究者直接用 ChatGPT 編寫)的文本的數(shù)據(jù)集,作為參考分布。

然后,作者估計(jì)了人工編寫的(P)和 AI 生成(Q)的內(nèi)容的 token 分布,尤其重點(diǎn)關(guān)注形容詞的出現(xiàn)概率。

最后將這種分布模型擬合到未知成分的目標(biāo)語(yǔ)料庫(kù),假設(shè)每個(gè)文檔都是從人類和人工智能分布的加權(quán)組合中,即 (1-α) P+αQ,并使用最大似然估計(jì)來(lái)推斷 α 的值。

完成方法的構(gòu)建之后,研究者又合成了多組 α 值確定的標(biāo)準(zhǔn)數(shù)據(jù)集,并在此之上對(duì)前面提出的方法進(jìn)行了驗(yàn)證,結(jié)果最大誤差僅有 2.4%。

于是,作者使用該方法分析了最近幾個(gè)會(huì)議中的審稿意見,最終得到了前面的結(jié)論。

而當(dāng)這項(xiàng)研究被更多人所得知后,引發(fā)了廣泛的討論,其中有不少人對(duì)這種現(xiàn)象表達(dá)了擔(dān)憂。

不過(guò),也有人猜測(cè)出現(xiàn)這種現(xiàn)象的原因,可能是審稿人母語(yǔ)不是英語(yǔ),于是用 ChatGPT 對(duì)英文寫作進(jìn)行了調(diào)整潤(rùn)色。

基于此,有人提問(wèn)到,用 ChatGPT 來(lái)改寫而不是直接生成評(píng)論也是錯(cuò)的嗎?

有人給出了半肯定的答復(fù),但理由不是關(guān)乎原創(chuàng)性,而是出于對(duì)文本質(zhì)量的擔(dān)憂,人們還是應(yīng)該謹(jǐn)慎使用 ChatGPT。

當(dāng)然也有人說(shuō),科學(xué)寫作,本身就是 ChatGPT 的一種合理用途。

總之對(duì)于這件事,擔(dān)憂也好寬容也罷,這種現(xiàn)象都已然存在了,而按照原作者的觀點(diǎn),這幾個(gè)問(wèn)題是人們應(yīng)該思考的:

  • 是否應(yīng)該披露 AI 在同行評(píng)審中的使用

  • 在 AI 極具誘惑力的情況下,應(yīng)該如何激勵(lì)好的實(shí)踐

  • 在人工智能同質(zhì)化的境地下,人們能否保持“智力多樣性”

  • 是否應(yīng)該重新考慮人類 / AI 混合知識(shí)工作的可信度

當(dāng)然了,在學(xué)術(shù)界,ChatGPT 生成的內(nèi)容,還遠(yuǎn)不只是審稿意見。

論文作者也愛用

除了審稿人被曝用 ChatGPT 寫評(píng)論之外,拿它來(lái)寫論文的人更是屢見不鮮……

在谷歌學(xué)術(shù)中搜索 2023 年及以后包含“certainly, here is”這種 ChatGPT 常用開頭的論文,剔除直接包含“ChatGPT”和“LLM”的論文后,結(jié)果共有 50 余篇。

隨機(jī)翻閱其中的幾篇,果然是發(fā)現(xiàn)了 ChatGPT 的使用痕跡,ChatGPT 在這些論文中被用做了總結(jié)、翻譯、制作表格等多種用途。

甚至其中還包括正式出版的論文合集:

而另一個(gè) ChatGPT 常用句式“As of my Last Knowledge Update”,在相同條件下的搜索結(jié)果有 114 條。

而且出現(xiàn)形式上也更加離譜,“Certainly 組”當(dāng)中至少還有一些只是用 ChatGPT 做了些輔助工作,“As of my…”這一組干脆直接拿來(lái)搞正文內(nèi)容了。

此外,“As an AI language model, I”也有 40 多條搜索結(jié)果,不過(guò)也不排除其中有誤傷的情況出現(xiàn)。

當(dāng)然要論離譜,可能還要屬這種把 ChatGPT 的按鈕“Regenerate Response”也一起復(fù)制進(jìn)去的了,而且數(shù)量還不算少,有將近一百篇。

露出雞腳馬腳被發(fā)現(xiàn)的論文數(shù)量尚且如此,刪去了這些關(guān)鍵字從而“躲過(guò)一劫”的究竟有多少,就更是不得而知了。

當(dāng)然,并不是說(shuō)研究者不能使用 ChatGPT 來(lái)輔助論文撰寫,包括 Elsevier、Springer(Nature 出版商)在內(nèi)的許多知名出版機(jī)構(gòu)都表示并不禁止 ChatGPT 的使用,只要進(jìn)行聲明即可。

總之,無(wú)論是論文本身還是審稿意見,亦或是其他文本寫作,如何以更合理的方式運(yùn)用 AI,值得人們繼續(xù)深入思考。

論文地址:

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:克雷西

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,AI論文,AI審稿,斯坦福

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知