ChatGPT 作弊難逃,99% 命中檢測(cè),堪薩斯大學(xué)全新算法,研究登 Cell 子刊

新智元 2023/7/1 21:53:11 責(zé)編:夢(mèng)澤

AI 檢測(cè)器有譜了,新算法實(shí)現(xiàn) 99% 的準(zhǔn)確率。

此前,曾有不少人研發(fā) ChatGPT 檢測(cè)器,但沒(méi)有一個(gè)能夠真正有效鑒別。

來(lái)自堪薩斯大學(xué)的研究人員介紹了一種全新的算法,能夠檢測(cè)是否用 ChatGPT 作弊,準(zhǔn)確率超 99% 。

最新研究已在 6 月 7 日,發(fā)表在 Cell Reports Physical Science 期刊上。

該論文的作者之一、堪薩斯大學(xué)化學(xué)教授 Heather Desaire 表示,

「我們努力創(chuàng)建一種易于使用的方法,這樣,即便是高中生,只需很少的指導(dǎo),也可以為不同類(lèi)型的寫(xiě)作構(gòu)建一個(gè)人工智能檢測(cè)器?!?/p>

四大特征,99% 識(shí)別率

就像研究者所稱(chēng),90% 準(zhǔn)確性往往是不夠的。但要獲得更高準(zhǔn)確性,取舍往往是普遍性。

這項(xiàng)研究中,研究人員選取了人類(lèi)作者撰寫(xiě)的 64 篇「科學(xué)」雜志上的研究文章,涵蓋從生物學(xué)到物理學(xué)的各個(gè)學(xué)科。

然后,將這些數(shù)據(jù)喂給 ChatGPT,并用這些數(shù)據(jù)生成了一個(gè) 128 篇人工智能文章的數(shù)據(jù)集。

這組訓(xùn)練數(shù)據(jù),包含 1276 段聊天機(jī)器人示例段落。

研究者利用這些數(shù)據(jù)構(gòu)建了 ChatGPT 檢測(cè)算法。

在模型完全開(kāi)發(fā)和優(yōu)化后,他們還生成了兩個(gè)測(cè)試集。每個(gè)測(cè)試集有 30 篇真實(shí)文章和 60 篇 ChatGPT 撰寫(xiě)的文章(總計(jì) 1210 段)組成了一個(gè)新的數(shù)據(jù)集,來(lái)測(cè)試最新算法。

實(shí)驗(yàn)結(jié)果顯示,最新算法能夠 100% 檢測(cè)到 ChatGPT 寫(xiě)的整篇文章。

在段落層面上,其準(zhǔn)確性較低,但仍令人印象深刻:該算法發(fā)現(xiàn)了 92% 的由人工智能生成的段落。

值得一提的是,論文稱(chēng),從一些細(xì)節(jié)中就能發(fā)現(xiàn),哪些內(nèi)容是 ChatGPT 創(chuàng)作的。

通過(guò)對(duì)訓(xùn)練集中許多示例的手動(dòng)比較,研究者確定了 4 類(lèi)特征。這些特征有助于區(qū)分人類(lèi)寫(xiě)作和聊天機(jī)器人。

(1)段落復(fù)雜性,(2)句子長(zhǎng)度多樣性,(3)標(biāo)點(diǎn)符號(hào),以及(4)流行詞或數(shù)字

總的來(lái)說(shuō),人類(lèi)作家寫(xiě)的段落更長(zhǎng)、使用詞匯量更大,包含更多的標(biāo)點(diǎn)符號(hào)。

而且,還傾向于用「然而」、「但是」和「盡管」這樣的詞來(lái)修飾他們的陳述。而 ChatGPT 在引用數(shù)字,提及其他科學(xué)家方面沒(méi)有那么具體。

在如下表分類(lèi)中,人類(lèi)擅長(zhǎng)的內(nèi)容要比 ChatGPT 多得多。

在這四類(lèi)特征中,有兩類(lèi)(1 和 3)是 ChatGPT 產(chǎn)生的內(nèi)容不如人類(lèi)復(fù)雜的方式。最大的區(qū)別特征是每段句子的數(shù)量和每段總單詞的數(shù)量。

在這兩種情況下,ChatGPT 的平均值都明顯低于人類(lèi)。

研究者還發(fā)現(xiàn),人類(lèi)更喜歡改變句子結(jié)構(gòu)。人類(lèi)改變句子長(zhǎng)度的次數(shù)超過(guò) ChatGPT。人類(lèi)也更頻繁地使用較長(zhǎng)的句子(35 個(gè)單詞或更多)和較短的句子(10 個(gè)單詞或更少)。

剩下的兩類(lèi)區(qū)分特征可以更多地描述為「文體」選擇。

一方面,人類(lèi)科學(xué)家更頻繁地使用問(wèn)號(hào)、破折號(hào)、括號(hào)、分號(hào)和冒號(hào),而 ChatGPT 使用更多的單引號(hào)。

人類(lèi)還使用更多的專(zhuān)有名詞和 / 或首字母縮略詞,還有數(shù)字。

這個(gè)由 Desaire 公司建立的這個(gè)模型,對(duì)于那些希望懲罰作弊的高中生的老師來(lái)說(shuō),是行不通的。

該算法是為學(xué)術(shù)寫(xiě)作而建立的,特別是人們?cè)诳茖W(xué)期刊上讀到的那種學(xué)術(shù)寫(xiě)作。

這家公司表示,理論上你可以使用同樣的技術(shù)來(lái)建立一個(gè)模型,來(lái)檢測(cè)其他類(lèi)型的寫(xiě)作。

不過(guò),不得不考慮的一個(gè)事實(shí)是,一個(gè)人可以很容易地對(duì)一個(gè)聊天機(jī)器人的寫(xiě)作進(jìn)行一些小調(diào)整,并讓其更難被發(fā)現(xiàn)是作弊,事情就更復(fù)雜了。

盡管如此,研究人員將這項(xiàng)研究描述為「概念證明」,并表示未來(lái)可以開(kāi)發(fā)一個(gè)更加穩(wěn)定,準(zhǔn)確的工具與更大的數(shù)據(jù)集。

如果人工智能繼續(xù)以極快速度發(fā)展下去,誰(shuí)也無(wú)法保證這樣的檢測(cè)方法,能否依然有效。

因?yàn)榇笮驼Z(yǔ)言模型越接近復(fù)制人類(lèi)語(yǔ)言文字的能力,識(shí)別機(jī)器人語(yǔ)言的痕跡就越困難。

AI 檢測(cè)為何如此困難

自 ChatGPT 面世以來(lái),已經(jīng)被許多高校的學(xué)生和老師用在日常的作業(yè)和教學(xué)中。

然而,如果不加以限制,ChatGPT 將會(huì)變成史上最強(qiáng)大的作弊工具,可以幫助學(xué)生們寫(xiě)作業(yè),甚至是完成考試論文。

為了反偵察,一款簡(jiǎn)單易用的檢測(cè)器成為老師期盼的東西。一位 22 歲普林斯頓大學(xué)的學(xué)生 Edward Tian,就自行開(kāi)發(fā)了一款檢測(cè)器 ——GPTZero。

甚至,OpenAI 官宣推出一個(gè)新工具,名為 AI Text Classifier 的文件檢測(cè)器。

但是,這些檢測(cè)器的表現(xiàn)并不如人意。

檢測(cè)出 AI 創(chuàng)作的內(nèi)容聽(tīng)起來(lái)很簡(jiǎn)單。但當(dāng)給你一封手寫(xiě)郵件和 ChatGPT 生成的郵件后,我們幾乎無(wú)法辨別。

Turnitin 的人工智能副總裁 Eric Wang 稱(chēng),用軟件檢測(cè)人工智能寫(xiě)作涉及統(tǒng)計(jì)學(xué)。從統(tǒng)計(jì)學(xué)的角度來(lái)看,人工智能與人類(lèi)的區(qū)別在于它極其穩(wěn)定地處于平均水平。

直白點(diǎn)講,AI 水平很穩(wěn)定。然而,實(shí)際上并非這樣一個(gè)道理。

「像 ChatGPT 這樣的系統(tǒng)就像是自動(dòng)補(bǔ)全的高級(jí)版本,尋找下一個(gè)最可能要寫(xiě)的單詞。這實(shí)際上就是它為什么讀起來(lái)如此自然的原因。AI 寫(xiě)作是人類(lèi)寫(xiě)作中最可能的子集?!?/p>

參考資料:

  • http://today.ku.edu/2023/05/19/digital-tool-spots-academic-text-spawned-chatgpt-99-percent-accuracy

  • https://gizmodo.com/chatgpt-detector-ai-kansas-research-paper-99-accuracy-1850519081

本文來(lái)自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知