Anthropic 推“憲法分類器”，可大幅降低 Claude 越獄率

2025/2/5 11:28:08 來源：IT之家作者：遠(yuǎn)洋 責(zé)編：遠(yuǎn)洋

評論：

IT之家 2 月 5 日消息，為解決人工智能工具中存在的濫用自然語言提示問題，OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器（constitutional classifiers）”的新概念，這是一種將一套類似人類價值觀（實際上就是一部“憲法”）植入大型語言模型的方法。

IT之家注意到，Anthropic 的安全保障研究團(tuán)隊在一篇新學(xué)術(shù)論文中公布了這一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先進(jìn)的大型語言模型）的越獄（即生成超出大型語言模型既定安全防護(hù)范圍的輸出內(nèi)容）。

作者們發(fā)現(xiàn)，在實施憲法分類器后，針對 Claude 模型的成功越獄情況減少了 81.6%，同時該系統(tǒng)對性能的影響極小，“生產(chǎn)流量拒絕率僅絕對增加 0.38%，推理開銷增加 23.7%”。

雖然大型語言模型能生成大量各種各樣的有害內(nèi)容，但 Anthropic（以及 OpenAI 等同行）越來越關(guān)注與化學(xué)、生物、放射和核（CBRN）相關(guān)內(nèi)容的風(fēng)險。例如，大型語言模型可能會告訴用戶如何制造化學(xué)制劑。

因此，為了證明憲法分類器的價值，Anthropic 發(fā)布了一個演示項目，向用戶發(fā)起挑戰(zhàn)，讓他們嘗試突破 8 個與 CBRN 內(nèi)容相關(guān)的越獄關(guān)卡。但這一舉措招致了一些批評，有人認(rèn)為這是在眾包安全志愿者或“紅隊隊員”。一位推特用戶寫道：“所以你是讓社區(qū)無償為你工作，好讓你在閉源模型上賺取更多利潤？”

Anthropic 指出，針對其憲法分類器防御措施的成功越獄是繞過了這些分類器，而非直接規(guī)避它們，特別列舉了兩種越獄方法。一種是良性釋義（作者舉例說，將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質(zhì)），另一種是長度利用，即通過無關(guān)細(xì)節(jié)迷惑大型語言模型。Anthropic 補充說，對沒有憲法分類器的模型有效的已知越獄方法在這一防御措施下無法越獄成功。

然而，Anthropic 也承認(rèn)，在憲法分類器測試期間提交的提示“拒絕率高得離譜”，并認(rèn)識到其基于規(guī)則的測試系統(tǒng)存在誤報和漏報的可能性。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Anthropic 推“憲法分類器”，可大幅降低 Claude 越獄率

相關(guān)文章

Anthropic 推“憲法分類器”，可大幅降低 Claude 越獄率