首頁 > 智能時(shí)代>人工智能

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

量子位 2024/4/2 17:44:14 責(zé)編：汪淼

評(píng)論：

尷了個(gè)大尬！

人們還在嘲諷有人用 ChatGPT 寫論文忘了刪掉“狐貍尾巴”，另一邊審稿人也被曝出用 ChatGPT 寫同行評(píng)論了。而且，還是來自 ICLR、NeurIPS 等頂會(huì)的那種。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

來自斯坦福的學(xué)者對(duì)一些頂級(jí) AI 會(huì)議（如 ICLR、NeurIPS、CoRL 等）中的審稿意見進(jìn)行了分析，結(jié)果發(fā)現(xiàn) ——

在 ChatGPT 出現(xiàn)之后，這些同行評(píng)論的“AI 含量”大增，最多的高達(dá) 16.9%，而有 ChatGPT 之前這個(gè)比例大約是 2%。

證據(jù)也很直觀，AI 常用的詞匯出現(xiàn)頻率，在 ChatGPT 發(fā)布之后噌的一下就上去了。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

消息一出，Reddit 的機(jī)器學(xué)習(xí)板塊立刻就炸了鍋，有網(wǎng)友直呼：閉環(huán)了！

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

在 X 上，也有人發(fā)出了同樣的疑問：

既然寫論文和審稿都是大模型在干，那科學(xué)家去干什么了？

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

那么，這究竟是怎么一回事呢？

頂會(huì)審稿意見 AI 含量超 1/6

來自斯坦福大學(xué)多個(gè)學(xué)院以及加州大學(xué)圣芭芭拉分校的研究人員發(fā)表了一項(xiàng)研究，主題是關(guān)于 ChatGPT 對(duì) AI 學(xué)術(shù)會(huì)議同行評(píng)審的影響。

研究人員一共分析了 ICLR、NeurIPS、CoRL 和 EMNLP 這四個(gè)頂會(huì)中的同行評(píng)審意見，對(duì)其“AI 含量”進(jìn)行了計(jì)算。

ICLR 2024：估計(jì) α 值為 10.6%
NeurIPS 2023：估計(jì) α 值為 9.1%
CoRL 2023：估計(jì) α 值為 6.5%
EMNLP 2023：估計(jì) α 值為 16.9%，超過了 1/6

（α 值指在所有內(nèi)容中疑似由 AI 生成或“顯著修改”的內(nèi)容所占的比例）

而在 ChatGPT 問世之前，α 值的水平大約是在 2%，作為對(duì)照的 Nature 系列期刊評(píng)審意見的 α 值則未發(fā)生顯著變化。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

除了得出這些數(shù)據(jù)，研究人員還發(fā)現(xiàn)了“AI 含量”較高的評(píng)審意見大多具有一些共同特點(diǎn)。

從內(nèi)容角度上看，“AI 含量”高的意見，引用的作者中包括“et al.”的學(xué)術(shù)內(nèi)容也較少。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

而且，“AI 含量”高的內(nèi)容，在語義上也更加同質(zhì)化，比如“commendable”（值得稱贊的）、“meticulous”（細(xì)致的）和“intricate”（復(fù)雜的）等形容詞大量出現(xiàn)。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

同時(shí)作者也展示了在 AI 生成的內(nèi)容中出現(xiàn)最頻繁的形容詞和副詞各 100 個(gè)，下圖中字號(hào)越大代表出現(xiàn)頻率越高。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

而除了內(nèi)容本身，高“AI 含量”的內(nèi)容的作者在行為上也表現(xiàn)出了一些共同之處。

一是提交的時(shí)間更加接近截止期限，特別是截止前三天提交的意見“AI 含量”明顯更高。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

除了提交時(shí)間晚，高“AI 含量”意見的作者，普遍對(duì)自己提交的內(nèi)容自信程度也更低。

評(píng)審者對(duì)自己評(píng)審意見信心水平的自我評(píng)估（滿分 5 分）結(jié)果顯示，“AI 含量”較高的審稿人，自我評(píng)分也更低（不大于 2 分）。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

此外，對(duì)自己的審稿意見自信程度低的另一個(gè)表現(xiàn)是，他們也較少對(duì)論文作者反駁做出回應(yīng)。

在 ICLR 2024 和 NeurIPS 2023 上，這類審稿人中有超過 12.5% 從未對(duì)反駁意見做出任何回復(fù)，約 10% 只回復(fù)了一次。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

那么，作者又是如何分析出這些審稿意見中的 AI 含量的呢？

為此，研究人員設(shè)計(jì)了一種分布式“GPT 量化”方法，能夠在語料庫級(jí)別有效估計(jì) AI 含量，而不必逐篇分析。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

首先，研究人員收集了已知由人類編寫（ChatGPT 出現(xiàn)前的審稿意見）和 AI 生成（由研究者直接用 ChatGPT 編寫）的文本的數(shù)據(jù)集，作為參考分布。

然后，作者估計(jì)了人工編寫的（P）和 AI 生成（Q）的內(nèi)容的 token 分布，尤其重點(diǎn)關(guān)注形容詞的出現(xiàn)概率。

最后將這種分布模型擬合到未知成分的目標(biāo)語料庫，假設(shè)每個(gè)文檔都是從人類和人工智能分布的加權(quán)組合中，即 (1-α) P+αQ，并使用最大似然估計(jì)來推斷 α 的值。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

完成方法的構(gòu)建之后，研究者又合成了多組 α 值確定的標(biāo)準(zhǔn)數(shù)據(jù)集，并在此之上對(duì)前面提出的方法進(jìn)行了驗(yàn)證，結(jié)果最大誤差僅有 2.4%。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

于是，作者使用該方法分析了最近幾個(gè)會(huì)議中的審稿意見，最終得到了前面的結(jié)論。

而當(dāng)這項(xiàng)研究被更多人所得知后，引發(fā)了廣泛的討論，其中有不少人對(duì)這種現(xiàn)象表達(dá)了擔(dān)憂。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

不過，也有人猜測(cè)出現(xiàn)這種現(xiàn)象的原因，可能是審稿人母語不是英語，于是用 ChatGPT 對(duì)英文寫作進(jìn)行了調(diào)整潤(rùn)色。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

基于此，有人提問到，用 ChatGPT 來改寫而不是直接生成評(píng)論也是錯(cuò)的嗎？

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

有人給出了半肯定的答復(fù)，但理由不是關(guān)乎原創(chuàng)性，而是出于對(duì)文本質(zhì)量的擔(dān)憂，人們還是應(yīng)該謹(jǐn)慎使用 ChatGPT。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

當(dāng)然也有人說，科學(xué)寫作，本身就是 ChatGPT 的一種合理用途。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

總之對(duì)于這件事，擔(dān)憂也好寬容也罷，這種現(xiàn)象都已然存在了，而按照原作者的觀點(diǎn)，這幾個(gè)問題是人們應(yīng)該思考的：

是否應(yīng)該披露 AI 在同行評(píng)審中的使用
在 AI 極具誘惑力的情況下，應(yīng)該如何激勵(lì)好的實(shí)踐
在人工智能同質(zhì)化的境地下，人們能否保持“智力多樣性”
是否應(yīng)該重新考慮人類 / AI 混合知識(shí)工作的可信度

當(dāng)然了，在學(xué)術(shù)界，ChatGPT 生成的內(nèi)容，還遠(yuǎn)不只是審稿意見。

論文作者也愛用

除了審稿人被曝用 ChatGPT 寫評(píng)論之外，拿它來寫論文的人更是屢見不鮮……

在谷歌學(xué)術(shù)中搜索 2023 年及以后包含“certainly, here is”這種 ChatGPT 常用開頭的論文，剔除直接包含“ChatGPT”和“LLM”的論文后，結(jié)果共有 50 余篇。

隨機(jī)翻閱其中的幾篇，果然是發(fā)現(xiàn)了 ChatGPT 的使用痕跡，ChatGPT 在這些論文中被用做了總結(jié)、翻譯、制作表格等多種用途。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

甚至其中還包括正式出版的論文合集：

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

而另一個(gè) ChatGPT 常用句式“As of my Last Knowledge Update”，在相同條件下的搜索結(jié)果有 114 條。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

而且出現(xiàn)形式上也更加離譜，“Certainly 組”當(dāng)中至少還有一些只是用 ChatGPT 做了些輔助工作，“As of my…”這一組干脆直接拿來搞正文內(nèi)容了。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

此外，“As an AI language model, I”也有 40 多條搜索結(jié)果，不過也不排除其中有誤傷的情況出現(xiàn)。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

當(dāng)然要論離譜，可能還要屬這種把 ChatGPT 的按鈕“Regenerate Response”也一起復(fù)制進(jìn)去的了，而且數(shù)量還不算少，有將近一百篇。

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

露出雞腳馬腳被發(fā)現(xiàn)的論文數(shù)量尚且如此，刪去了這些關(guān)鍵字從而“躲過一劫”的究竟有多少，就更是不得而知了。

當(dāng)然，并不是說研究者不能使用 ChatGPT 來輔助論文撰寫，包括 Elsevier、Springer（Nature 出版商）在內(nèi)的許多知名出版機(jī)構(gòu)都表示并不禁止 ChatGPT 的使用，只要進(jìn)行聲明即可。

總之，無論是論文本身還是審稿意見，亦或是其他文本寫作，如何以更合理的方式運(yùn)用 AI，值得人們繼續(xù)深入思考。

論文地址：

https://arxiv.org/abs/2403.07183

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：克雷西

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩

頂會(huì)審稿意見 AI 含量超 1/6

論文作者也愛用

相關(guān)文章

ChatGPT 也在評(píng)審你的頂會(huì)投稿，斯坦福新研究捅了馬蜂窩