設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

ChatGPT“克星”:用 AI 識(shí)別 AI 生成的文本,英語(yǔ)論文閱讀筆記都能測(cè)出

量子位 2022/12/14 12:25:13 責(zé)編:遠(yuǎn)生

ChatGPT 的出現(xiàn),讓不少人看到了交期末大作業(yè)的曙光(手動(dòng)狗頭)。

無(wú)論是英語(yǔ)論文、還是閱讀筆記,只要在 ChatGPT 的知識(shí)范圍內(nèi),都可以拜托它幫忙完成,寫(xiě)出來(lái)的內(nèi)容也有理有據(jù)。

不過(guò),有沒(méi)有想過(guò)你的老師也準(zhǔn)備用“AI 文本檢測(cè)器”一類的東西來(lái)防止你作弊?

像這樣輸入一段看起來(lái)沒(méi)毛病的筆記,經(jīng)過(guò)它一番檢測(cè),認(rèn)為這段文字“由 AI 編寫(xiě)”(Fake)的可能性為 99.98%!

文本由 ChatGPT 生成

換個(gè)數(shù)學(xué)論文試試?ChatGPT 的輸出看起來(lái)沒(méi)啥問(wèn)題,卻仍然被它準(zhǔn)確識(shí)破了:

文本由 ChatGPT 生成

這可不是靠瞎蒙或猜測(cè),畢竟對(duì)方同樣是個(gè) AI,還是個(gè)訓(xùn)練有素的 AI。

看到這有網(wǎng)友調(diào)侃:用魔法打敗魔法?

用 AI 寫(xiě)的東西來(lái)訓(xùn)練新 AI

這個(gè) AI 檢測(cè)器名叫 GPT-2 Output Detector,是 OpenAI 聯(lián)合哈佛大學(xué)等高校和機(jī)構(gòu)一起打造的。(沒(méi)錯(cuò),OpenAI 自家做的)

輸入 50 個(gè)以上字符(tokens)就能較準(zhǔn)確地識(shí)別 AI 生成的文本。

但即便是專門(mén)檢測(cè) GPT-2 的模型,用來(lái)檢測(cè)其他 AI 生成文本效果也同樣不錯(cuò)。

作者們先是發(fā)布了一個(gè)“GPT-2 生成內(nèi)容”和 WebText(專門(mén)從國(guó)外貼吧 Reddit 上扒下來(lái)的)數(shù)據(jù)集,讓 AI 理解“AI 語(yǔ)言”和“人話”之間的差異。

隨后,用這個(gè)數(shù)據(jù)集對(duì) RoBERTa 模型進(jìn)行微調(diào),就得到了這個(gè) AI 檢測(cè)器。

RoBERTa(Robustly Optimized BERT approach)是 BERT 的改進(jìn)版。原始的 BERT 使用了 13GB 大小的數(shù)據(jù)集,但 RoBERTa 使用了包含 6300 萬(wàn)條英文新聞的 160GB 數(shù)據(jù)集。

其中,人話一律被識(shí)別為 True,AI 生成的內(nèi)容則一律被識(shí)別為 Fake。

例如這是一段從 Medium 英文博客上復(fù)制的內(nèi)容。從識(shí)別結(jié)果來(lái)看,很顯然作者是親自寫(xiě)的(手動(dòng)狗頭):

文字來(lái)源 Medium@Megan Ng

當(dāng)然,這個(gè)檢測(cè)器也并非 100% 準(zhǔn)確。

AI 模型參數(shù)量越大,生成的內(nèi)容越不容易被識(shí)別,例如 1.24 億參數(shù)量的模型“被抓包”的概率就比 15 億參數(shù)更高。

同時(shí),模型生成結(jié)果隨機(jī)性越高,AI 生成內(nèi)容被檢測(cè)出來(lái)的概率也會(huì)更低。

但即便將模型調(diào)整到生成隨機(jī)性最高(Temperature=1,越接近 0 生成隨機(jī)性越低),1.24 億參數(shù)模型被檢測(cè)出的概率仍然是 88%,15 億參數(shù)模型被檢測(cè)出的概率仍然有 74%。

這是 OpenAI 兩年前發(fā)布的模型,當(dāng)時(shí)對(duì) GPT-2 生成的內(nèi)容就“一打一個(gè)準(zhǔn)”。

現(xiàn)在面對(duì)升級(jí)版的 ChatGPT,檢測(cè)英文生成內(nèi)容的效果依舊能打。

但面對(duì) ChatGPT 生成的中文,它的識(shí)別能力就不那么好了。例如讓 ChatGPT 來(lái)一段作文:

AI 檢測(cè)器給出是人寫(xiě)的概率為 99.96%……

當(dāng)然話說(shuō)回來(lái),ChatGPT 也能檢測(cè)自己生成的文本。

所以,不排除老師將你的作業(yè)直接交給 ChatGPT 來(lái)識(shí)別:

One More Thing

值得一提的是,ChatGPT 表示自己并不能訪問(wèn)互聯(lián)網(wǎng)來(lái)搜索信息。

顯然,它還意識(shí)不到 GPT-2 Output Detector 這個(gè) AI 檢測(cè)器的存在:

所以能不能像網(wǎng)友所說(shuō),讓 ChatGPT 生成一段“不被 AI 檢測(cè)器測(cè)出來(lái)的”內(nèi)容呢?

很遺憾不能:

所以大作業(yè)還是自己寫(xiě)吧……

參考鏈接:

  • [1]https://weibo.com/1402400261/Mj7QtwRoH

  • [2]https://github.com/openai/gpt-2-output-dataset/tree/master/detector

  • [3]https://chat.openai.com/

  • [4]https://medium.com/user-experience-design-1/how-chatgpt-is-blowing-google-out-of-the-water-a-ux-breakdown-784340c25d57

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知