首頁 > 科學(xué)探索>科技前沿

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

新智元 2023/7/1 21:53:11 責(zé)編：夢澤

評論：

AI 檢測器有譜了，新算法實現(xiàn) 99% 的準確率。

此前，曾有不少人研發(fā) ChatGPT 檢測器，但沒有一個能夠真正有效鑒別。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

來自堪薩斯大學(xué)的研究人員介紹了一種全新的算法，能夠檢測是否用 ChatGPT 作弊，準確率超 99% 。

最新研究已在 6 月 7 日，發(fā)表在 Cell Reports Physical Science 期刊上。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

該論文的作者之一、堪薩斯大學(xué)化學(xué)教授 Heather Desaire 表示，

「我們努力創(chuàng)建一種易于使用的方法，這樣，即便是高中生，只需很少的指導(dǎo)，也可以為不同類型的寫作構(gòu)建一個人工智能檢測器?！?/p>

四大特征，99% 識別率

就像研究者所稱，90% 準確性往往是不夠的。但要獲得更高準確性，取舍往往是普遍性。

這項研究中，研究人員選取了人類作者撰寫的 64 篇「科學(xué)」雜志上的研究文章，涵蓋從生物學(xué)到物理學(xué)的各個學(xué)科。

然后，將這些數(shù)據(jù)喂給 ChatGPT，并用這些數(shù)據(jù)生成了一個 128 篇人工智能文章的數(shù)據(jù)集。

這組訓(xùn)練數(shù)據(jù)，包含 1276 段聊天機器人示例段落。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

研究者利用這些數(shù)據(jù)構(gòu)建了 ChatGPT 檢測算法。

在模型完全開發(fā)和優(yōu)化后，他們還生成了兩個測試集。每個測試集有 30 篇真實文章和 60 篇 ChatGPT 撰寫的文章（總計 1210 段）組成了一個新的數(shù)據(jù)集，來測試最新算法。

實驗結(jié)果顯示，最新算法能夠 100% 檢測到 ChatGPT 寫的整篇文章。

在段落層面上，其準確性較低，但仍令人印象深刻：該算法發(fā)現(xiàn)了 92% 的由人工智能生成的段落。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

值得一提的是，論文稱，從一些細節(jié)中就能發(fā)現(xiàn)，哪些內(nèi)容是 ChatGPT 創(chuàng)作的。

通過對訓(xùn)練集中許多示例的手動比較，研究者確定了 4 類特征。這些特征有助于區(qū)分人類寫作和聊天機器人。

（1）段落復(fù)雜性，（2）句子長度多樣性，（3）標點符號，以及（4）流行詞或數(shù)字

總的來說，人類作家寫的段落更長、使用詞匯量更大，包含更多的標點符號。

而且，還傾向于用「然而」、「但是」和「盡管」這樣的詞來修飾他們的陳述。而 ChatGPT 在引用數(shù)字，提及其他科學(xué)家方面沒有那么具體。

在如下表分類中，人類擅長的內(nèi)容要比 ChatGPT 多得多。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

在這四類特征中，有兩類（1 和 3）是 ChatGPT 產(chǎn)生的內(nèi)容不如人類復(fù)雜的方式。最大的區(qū)別特征是每段句子的數(shù)量和每段總單詞的數(shù)量。

在這兩種情況下，ChatGPT 的平均值都明顯低于人類。

研究者還發(fā)現(xiàn)，人類更喜歡改變句子結(jié)構(gòu)。人類改變句子長度的次數(shù)超過 ChatGPT。人類也更頻繁地使用較長的句子（35 個單詞或更多）和較短的句子（10 個單詞或更少）。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

剩下的兩類區(qū)分特征可以更多地描述為「文體」選擇。

一方面，人類科學(xué)家更頻繁地使用問號、破折號、括號、分號和冒號，而 ChatGPT 使用更多的單引號。

人類還使用更多的專有名詞和 / 或首字母縮略詞，還有數(shù)字。

這個由 Desaire 公司建立的這個模型，對于那些希望懲罰作弊的高中生的老師來說，是行不通的。

該算法是為學(xué)術(shù)寫作而建立的，特別是人們在科學(xué)期刊上讀到的那種學(xué)術(shù)寫作。

這家公司表示，理論上你可以使用同樣的技術(shù)來建立一個模型，來檢測其他類型的寫作。

不過，不得不考慮的一個事實是，一個人可以很容易地對一個聊天機器人的寫作進行一些小調(diào)整，并讓其更難被發(fā)現(xiàn)是作弊，事情就更復(fù)雜了。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

盡管如此，研究人員將這項研究描述為「概念證明」，并表示未來可以開發(fā)一個更加穩(wěn)定，準確的工具與更大的數(shù)據(jù)集。

如果人工智能繼續(xù)以極快速度發(fā)展下去，誰也無法保證這樣的檢測方法，能否依然有效。

因為大型語言模型越接近復(fù)制人類語言文字的能力，識別機器人語言的痕跡就越困難。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

AI 檢測為何如此困難

自 ChatGPT 面世以來，已經(jīng)被許多高校的學(xué)生和老師用在日常的作業(yè)和教學(xué)中。

然而，如果不加以限制，ChatGPT 將會變成史上最強大的作弊工具，可以幫助學(xué)生們寫作業(yè)，甚至是完成考試論文。

為了反偵察，一款簡單易用的檢測器成為老師期盼的東西。一位 22 歲普林斯頓大學(xué)的學(xué)生 Edward Tian，就自行開發(fā)了一款檢測器 ——GPTZero。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

甚至，OpenAI 官宣推出一個新工具，名為 AI Text Classifier 的文件檢測器。

但是，這些檢測器的表現(xiàn)并不如人意。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

檢測出 AI 創(chuàng)作的內(nèi)容聽起來很簡單。但當給你一封手寫郵件和 ChatGPT 生成的郵件后，我們幾乎無法辨別。

Turnitin 的人工智能副總裁 Eric Wang 稱，用軟件檢測人工智能寫作涉及統(tǒng)計學(xué)。從統(tǒng)計學(xué)的角度來看，人工智能與人類的區(qū)別在于它極其穩(wěn)定地處于平均水平。

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

直白點講，AI 水平很穩(wěn)定。然而，實際上并非這樣一個道理。

「像 ChatGPT 這樣的系統(tǒng)就像是自動補全的高級版本，尋找下一個最可能要寫的單詞。這實際上就是它為什么讀起來如此自然的原因。AI 寫作是人類寫作中最可能的子集。」

參考資料：

http://today.ku.edu/2023/05/19/digital-tool-spots-academic-text-spawned-chatgpt-99-percent-accuracy
https://gizmodo.com/chatgpt-detector-ai-kansas-research-paper-99-accuracy-1850519081

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

四大特征，99% 識別率

AI 檢測為何如此困難

相關(guān)文章

ChatGPT 作弊難逃，99% 命中檢測，堪薩斯大學(xué)全新算法，研究登 Cell 子刊

四大特征，99% 識別率