設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

再也不能用 ChatGPT 寫作業(yè)了,新算法給 AI 生成文本加水印

量子位 2023/2/9 11:45:13 責(zé)編:夢(mèng)澤

原文標(biāo)題:《再也不能用 ChatGPT 寫作業(yè)了!新算法給 AI 生成文本加水印,置信度高達(dá) 99.999999999994%》

AI 生成文本,又遇新對(duì)手!

憑借識(shí)別 AI 生成文本中的“水印”,一種新算法能夠準(zhǔn)確判斷文本到底是誰(shuí)寫的。

無(wú)需訪問(wèn)模型參數(shù)、API,結(jié)果置信度高達(dá) 99.999999999994%。

方法一經(jīng)發(fā)布就引來(lái)大量網(wǎng)友圍觀。這回拿 ChatGPT“作弊”,怕不是要更難了?

要知道,最近一段時(shí)間,ChatGPT 先是成為美國(guó)高中生的寫作業(yè)利器,后面幫專業(yè)媒體寫稿子,引發(fā)巨大恐慌。如 Nature、紐約教育部等,都針對(duì) ChatGPT 發(fā)布禁令。

馬里蘭大學(xué)學(xué)者們提出的這一新方法,為解決這些麻煩提出了個(gè)新思路。

不少網(wǎng)友都覺(jué)得,這個(gè)方法提出的正是時(shí)候,而且效果看著也不錯(cuò)。

有學(xué)者還和美國(guó)高中生喊話,你們要做好準(zhǔn)備了!

作者表示,方法代碼將在 2 月 15 日免費(fèi)開(kāi)源。

計(jì)算文本由 AI 生成的概率

所謂模型水印,人類無(wú)法看到,但是計(jì)算機(jī)可以。

這是一種現(xiàn)在被常用于大規(guī)模語(yǔ)言模型(LLM)中的方法,能讓 AI 生成的文本帶有“特殊標(biāo)記”。即把信號(hào)嵌入到生成的文本中,讓算法能從一小段 token 中檢測(cè)出來(lái)。

最近,OpenAI 方面也表示,考慮在 ChatGPT 中添加水印,以降低模型被濫用帶來(lái)的負(fù)面影響。

這篇最新論文的作者,就想驗(yàn)證下這個(gè)想法到底靠不靠譜。他們通過(guò)給 LLM 中嵌入水印,然后再進(jìn)行檢測(cè)。其中水印的嵌入不會(huì)影響文本生成質(zhì)量。

具體來(lái)說(shuō),大規(guī)模語(yǔ)言模型每次生成一個(gè) token,每個(gè) token 將從包含大約 5 萬(wàn)個(gè)詞匯的詞匯表中進(jìn)行選擇。

在新 token 生成之前,該方法會(huì)從基于最近已生成的 token 為隨機(jī)數(shù)生成器(RNG)提供“種子”,以此來(lái)壓一個(gè)水印。

然后使用 RNG,能將詞匯表分為黑名單白名單,并要求 LLM 接下來(lái)只能從白名單中選擇詞匯。

如果整段文本中,白名單中的詞匯越多,就意味著越有可能是 AI 生成的。

黑白名單的區(qū)分,基于一個(gè)原則:

人類使用詞匯的隨機(jī)性更強(qiáng)。

舉例來(lái)說(shuō),如果在“美麗的”后面生成詞匯,水印算法會(huì)將“花”列入白名單,將“蘭花”列入黑名單。

論文作者認(rèn)為,AI 更可能使用“花”這個(gè)詞匯,而不是“蘭花”。

然后,就能通過(guò)計(jì)算整段文本中白名單 token 出現(xiàn)的情況,來(lái)檢測(cè)水印。

如果一共有生成了 N 個(gè) token,所有的 token 都使用了白名單詞匯,那么這段文字只有 2 的 N 次方分之一概率是人類寫的。

即便這段文字只有 25 個(gè)詞組成,那么水印算法也能判斷出它到底是不是 AI 生成的。

但作者也表示,水印有時(shí)候也不一定完全靠譜。

比如模型輸出了“SpongeBob Square”,下一個(gè)單詞一定會(huì)是“Pants”吧?但是 Pants 會(huì)被標(biāo)記到黑名單里,即認(rèn)為是只有人才會(huì)寫的詞。

(注:SpongeBob SquarePants 是《海綿寶寶》動(dòng)畫片的英文,可理解為一個(gè)專有名詞)

這種情況會(huì)嚴(yán)重影響算法的準(zhǔn)確性,因此作者將其定義為低熵 token,因?yàn)槟P蛶缀醪粫?huì)有更好的選擇。

對(duì)應(yīng)來(lái)看,也會(huì)有高熵 token,比如“海綿寶寶感覺(jué)____”這個(gè)句式里,能填入的詞匯太多了。

對(duì)于這一情況,作者選擇針對(duì)高熵 token 制定更強(qiáng)的規(guī)則,同時(shí)保留低熵 token,確保水印質(zhì)量更好。

與此同時(shí),他們還添加了波束搜索(Beam search),允許 LLM 能夠排布一整個(gè) token 序列,以避免黑名單詞匯。

這么做,他們能確保 LLM 使用白名單詞匯的概率在大約 80% 左右,而且不影響文本生成質(zhì)量。

舉例來(lái)看,對(duì)于下面這段文字,水印算法認(rèn)為它有 99.999999999994% 的可能是由 AI 生成的。

因?yàn)樵谶@段文字中,包含 36 個(gè) token。如果是人類寫的,那么文本中應(yīng)該包含 9±2.6 個(gè)白名單詞匯(白名單詞匯的概率約為 25%)。

但這段文字中,包含了 28 個(gè)白名單詞匯。

計(jì)算來(lái)看,這段文字由人類寫出的概率,僅有 0.0000000000006% (6 乘以 10 的-15 次方)。

如下標(biāo)注的是文本中的黑名單 token。

需要注意的是,如果想要水印正常發(fā)揮作用,并不受到攻擊,就必須對(duì)文本進(jìn)行一些標(biāo)準(zhǔn)化處理,并且需要檢測(cè)某些類型的對(duì)抗性提示。

這一方法是對(duì)外公開(kāi)的,將在 2 月 15 日開(kāi)源代碼。

加一個(gè)隨機(jī)秘鑰,也能變成保密模式并且托管到 API 上,這能保證水印不會(huì)被篡改。

論文中使用的模型是 Meta 開(kāi)源的 OPT-1.3B 模型。

由于不用訪問(wèn)底層模型,所以該檢測(cè)方法的速度很快,成本也不會(huì)很高。

而且可以使用標(biāo)準(zhǔn)語(yǔ)言模型生成帶水印的文本,不用再重新訓(xùn)練。

網(wǎng)友:似乎很容易繞過(guò)?

巴特,不少網(wǎng)友覺(jué)得,這個(gè)方法的具體實(shí)踐效果可能遠(yuǎn)不及理想,質(zhì)疑之聲迭起。

有人提出:

如果我在 AI 生成的文字基礎(chǔ)上,修改幾個(gè)詞,還能被查出來(lái)嗎?那在替換成近義詞后,檢測(cè)準(zhǔn)確率會(huì)下降多少?

畢竟大家往往不會(huì)一字不改、直接用 AI 生成的內(nèi)容。

對(duì)此,論文通訊作者、馬里蘭大學(xué)副教授 Tom Goldstein 回答稱:

對(duì)于一段自帶水印的文字,至少得修改 40%-75% 的 token,才可能成功去除水印。

(如果用其他程序修改內(nèi)容話),為發(fā)生同義詞攻擊,導(dǎo)致生成內(nèi)容的質(zhì)量很低。

簡(jiǎn)而言之,想要通過(guò)換近義詞來(lái)消除水印,得大篇幅修改,而且若不是人親自手動(dòng)修改的話,效果會(huì)很拉胯。

還有人提出:

對(duì)于專門設(shè)計(jì)過(guò)的低熵 token 序列,應(yīng)該能檢測(cè)出水印。但是,長(zhǎng)度和檢測(cè)率之間(存在一些矛盾),它們的優(yōu)先級(jí)應(yīng)該如何權(quán)衡?

對(duì)此,Tom 教授表示:

根據(jù)設(shè)定,使用波束搜索時(shí),絕大多數(shù)(通常是 90%)的 token 在白名單上,即使是低熵 token,也會(huì)被列入白名單。

所以,至少得修改一半以上的 token,才能刪除水印,而這需要一個(gè)超級(jí)強(qiáng)大的 LLM 模型才行,一般人很難接觸到。

不過(guò),研究者們也在論文中承認(rèn),這種方法確實(shí)存在一些局限性。

比如,檢測(cè)水印的 z 統(tǒng)計(jì)量,只取決于白名單大小參數(shù) γ 和生成白名單的哈希函數(shù),和其他不少重要的參數(shù)并沒(méi)有什么相關(guān)性。

這就讓他人可以在下游水印檢測(cè)器上做手腳,可以改變水印采樣算法,重新部署水印,最終讓原本生成的水印失效。

就連 OpenAI CEO Sam Altman 也表示:

創(chuàng)造完美檢測(cè) AI 抄襲的工具,從根本上來(lái)說(shuō)是不可能的。

(盡管他說(shuō) OpenAI 打算啟用水印大法)

但話說(shuō)回來(lái),人們?yōu)榱讼拗?AI 生成文字的負(fù)面影響,還是煞費(fèi)苦心 ——

之前就有人搞出了一個(gè)檢測(cè) ChatGPT 的網(wǎng)站,名曰 GPTZero,只需要把相應(yīng)的內(nèi)容粘進(jìn)去,幾秒內(nèi)就能分析出結(jié)果。

論文地址:

https://arxiv.org/abs/2301.10226

參考鏈接:

  • [1]https://twitter.com/tomgoldsteincs/status/1618287665006403585

  • [2]https://twitter.com/goodside/status/1610552172038737920

  • [3]https://www.technologyreview.com/2023/01/27/1067338/a-watermark-for-chatbots-can-spot-text-written-by-an-ai/

本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:明敏 Alex

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT水印

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知