首頁 > 科學(xué)探索>科技前沿

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

量子位 2023/2/9 11:45:13 責(zé)編：夢(mèng)澤

評(píng)論：

原文標(biāo)題：《再也不能用 ChatGPT 寫作業(yè)了！新算法給 AI 生成文本加水印，置信度高達(dá) 99.999999999994%》

AI 生成文本，又遇新對(duì)手！

憑借識(shí)別 AI 生成文本中的“水印”，一種新算法能夠準(zhǔn)確判斷文本到底是誰寫的。

無需訪問模型參數(shù)、API，結(jié)果置信度高達(dá) 99.999999999994%。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

方法一經(jīng)發(fā)布就引來大量網(wǎng)友圍觀。這回拿 ChatGPT“作弊”，怕不是要更難了？

要知道，最近一段時(shí)間，ChatGPT 先是成為美國高中生的寫作業(yè)利器，后面幫專業(yè)媒體寫稿子，引發(fā)巨大恐慌。如 Nature、紐約教育部等，都針對(duì) ChatGPT 發(fā)布禁令。

馬里蘭大學(xué)學(xué)者們提出的這一新方法，為解決這些麻煩提出了個(gè)新思路。

不少網(wǎng)友都覺得，這個(gè)方法提出的正是時(shí)候，而且效果看著也不錯(cuò)。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

有學(xué)者還和美國高中生喊話，你們要做好準(zhǔn)備了！

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

作者表示，方法代碼將在 2 月 15 日免費(fèi)開源。

計(jì)算文本由 AI 生成的概率

所謂模型水印，人類無法看到，但是計(jì)算機(jī)可以。

這是一種現(xiàn)在被常用于大規(guī)模語言模型（LLM）中的方法，能讓 AI 生成的文本帶有“特殊標(biāo)記”。即把信號(hào)嵌入到生成的文本中，讓算法能從一小段 token 中檢測(cè)出來。

最近，OpenAI 方面也表示，考慮在 ChatGPT 中添加水印，以降低模型被濫用帶來的負(fù)面影響。

這篇最新論文的作者，就想驗(yàn)證下這個(gè)想法到底靠不靠譜。他們通過給 LLM 中嵌入水印，然后再進(jìn)行檢測(cè)。其中水印的嵌入不會(huì)影響文本生成質(zhì)量。

具體來說，大規(guī)模語言模型每次生成一個(gè) token，每個(gè) token 將從包含大約 5 萬個(gè)詞匯的詞匯表中進(jìn)行選擇。

在新 token 生成之前，該方法會(huì)從基于最近已生成的 token 為隨機(jī)數(shù)生成器（RNG）提供“種子”，以此來壓一個(gè)水印。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

然后使用 RNG，能將詞匯表分為黑名單和白名單，并要求 LLM 接下來只能從白名單中選擇詞匯。

如果整段文本中，白名單中的詞匯越多，就意味著越有可能是 AI 生成的。

黑白名單的區(qū)分，基于一個(gè)原則：

人類使用詞匯的隨機(jī)性更強(qiáng)。

舉例來說，如果在“美麗的”后面生成詞匯，水印算法會(huì)將“花”列入白名單，將“蘭花”列入黑名單。

論文作者認(rèn)為，AI 更可能使用“花”這個(gè)詞匯，而不是“蘭花”。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

然后，就能通過計(jì)算整段文本中白名單 token 出現(xiàn)的情況，來檢測(cè)水印。

如果一共有生成了 N 個(gè) token，所有的 token 都使用了白名單詞匯，那么這段文字只有 2 的 N 次方分之一概率是人類寫的。

即便這段文字只有 25 個(gè)詞組成，那么水印算法也能判斷出它到底是不是 AI 生成的。

但作者也表示，水印有時(shí)候也不一定完全靠譜。

比如模型輸出了“SpongeBob Square”，下一個(gè)單詞一定會(huì)是“Pants”吧？但是 Pants 會(huì)被標(biāo)記到黑名單里，即認(rèn)為是只有人才會(huì)寫的詞。

（注：SpongeBob SquarePants 是《海綿寶寶》動(dòng)畫片的英文，可理解為一個(gè)專有名詞）

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

這種情況會(huì)嚴(yán)重影響算法的準(zhǔn)確性，因此作者將其定義為低熵 token，因?yàn)槟Ｐ蛶缀醪粫?huì)有更好的選擇。

對(duì)應(yīng)來看，也會(huì)有高熵 token，比如“海綿寶寶感覺____”這個(gè)句式里，能填入的詞匯太多了。

對(duì)于這一情況，作者選擇針對(duì)高熵 token 制定更強(qiáng)的規(guī)則，同時(shí)保留低熵 token，確保水印質(zhì)量更好。

與此同時(shí)，他們還添加了波束搜索（Beam search），允許 LLM 能夠排布一整個(gè) token 序列，以避免黑名單詞匯。

這么做，他們能確保 LLM 使用白名單詞匯的概率在大約 80% 左右，而且不影響文本生成質(zhì)量。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

舉例來看，對(duì)于下面這段文字，水印算法認(rèn)為它有 99.999999999994% 的可能是由 AI 生成的。

因?yàn)樵谶@段文字中，包含 36 個(gè) token。如果是人類寫的，那么文本中應(yīng)該包含 9±2.6 個(gè)白名單詞匯（白名單詞匯的概率約為 25%）。

但這段文字中，包含了 28 個(gè)白名單詞匯。

計(jì)算來看，這段文字由人類寫出的概率，僅有 0.0000000000006% （6 乘以 10 的-15 次方）。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

如下標(biāo)注的是文本中的黑名單 token。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

需要注意的是，如果想要水印正常發(fā)揮作用，并不受到攻擊，就必須對(duì)文本進(jìn)行一些標(biāo)準(zhǔn)化處理，并且需要檢測(cè)某些類型的對(duì)抗性提示。

這一方法是對(duì)外公開的，將在 2 月 15 日開源代碼。

加一個(gè)隨機(jī)秘鑰，也能變成保密模式并且托管到 API 上，這能保證水印不會(huì)被篡改。

論文中使用的模型是 Meta 開源的 OPT-1.3B 模型。

由于不用訪問底層模型，所以該檢測(cè)方法的速度很快，成本也不會(huì)很高。

而且可以使用標(biāo)準(zhǔn)語言模型生成帶水印的文本，不用再重新訓(xùn)練。

網(wǎng)友：似乎很容易繞過？

巴特，不少網(wǎng)友覺得，這個(gè)方法的具體實(shí)踐效果可能遠(yuǎn)不及理想，質(zhì)疑之聲迭起。

有人提出：

如果我在 AI 生成的文字基礎(chǔ)上，修改幾個(gè)詞，還能被查出來嗎？那在替換成近義詞后，檢測(cè)準(zhǔn)確率會(huì)下降多少？
畢竟大家往往不會(huì)一字不改、直接用 AI 生成的內(nèi)容。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

對(duì)此，論文通訊作者、馬里蘭大學(xué)副教授 Tom Goldstein 回答稱：

對(duì)于一段自帶水印的文字，至少得修改 40%-75% 的 token，才可能成功去除水印。
（如果用其他程序修改內(nèi)容話），為發(fā)生同義詞攻擊，導(dǎo)致生成內(nèi)容的質(zhì)量很低。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

簡(jiǎn)而言之，想要通過換近義詞來消除水印，得大篇幅修改，而且若不是人親自手動(dòng)修改的話，效果會(huì)很拉胯。

還有人提出：

對(duì)于專門設(shè)計(jì)過的低熵 token 序列，應(yīng)該能檢測(cè)出水印。但是，長(zhǎng)度和檢測(cè)率之間（存在一些矛盾），它們的優(yōu)先級(jí)應(yīng)該如何權(quán)衡？

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

對(duì)此，Tom 教授表示：

根據(jù)設(shè)定，使用波束搜索時(shí)，絕大多數(shù)（通常是 90%）的 token 在白名單上，即使是低熵 token，也會(huì)被列入白名單。
所以，至少得修改一半以上的 token，才能刪除水印，而這需要一個(gè)超級(jí)強(qiáng)大的 LLM 模型才行，一般人很難接觸到。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

不過，研究者們也在論文中承認(rèn)，這種方法確實(shí)存在一些局限性。

比如，檢測(cè)水印的 z 統(tǒng)計(jì)量，只取決于白名單大小參數(shù) γ 和生成白名單的哈希函數(shù)，和其他不少重要的參數(shù)并沒有什么相關(guān)性。

這就讓他人可以在下游水印檢測(cè)器上做手腳，可以改變水印采樣算法，重新部署水印，最終讓原本生成的水印失效。

就連 OpenAI CEO Sam Altman 也表示：

創(chuàng)造完美檢測(cè) AI 抄襲的工具，從根本上來說是不可能的。

（盡管他說 OpenAI 打算啟用水印大法）

但話說回來，人們?yōu)榱讼拗?AI 生成文字的負(fù)面影響，還是煞費(fèi)苦心 ——

之前就有人搞出了一個(gè)檢測(cè) ChatGPT 的網(wǎng)站，名曰 GPTZero，只需要把相應(yīng)的內(nèi)容粘進(jìn)去，幾秒內(nèi)就能分析出結(jié)果。

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

論文地址：

https://arxiv.org/abs/2301.10226

參考鏈接：

[1]https://twitter.com/tomgoldsteincs/status/1618287665006403585
[2]https://twitter.com/goodside/status/1610552172038737920
[3]https://www.technologyreview.com/2023/01/27/1067338/a-watermark-for-chatbots-can-spot-text-written-by-an-ai/

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：明敏 Alex

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

計(jì)算文本由 AI 生成的概率

網(wǎng)友：似乎很容易繞過？

相關(guān)文章

再也不能用 ChatGPT 寫作業(yè)了，新算法給 AI 生成文本加水印

網(wǎng)友：似乎很容易繞過？