谷歌 Deep Mind 的研究人員 Nicholas Carlini在一篇題為“AI-Guardian 的 LLM 輔助開發(fā)”的論文中,探討了使用GPT-4“設(shè)計攻擊方法、撰寫攻擊原理”的方案,并將這些方案用于欺騙 AI 審核系統(tǒng) AI-Guardian 的防御機(jī)制。據(jù)悉,GPT-4會發(fā)出一系列錯誤的腳本和解釋來欺騙 AI-Guardian ,論文中提到,GOT-4 可以讓AI-Guardian認(rèn)為某人拿著槍的照片是某人拿著無害蘋果的照片。不過AI-Guardian 的開發(fā)者也同時指出,谷歌研究團(tuán)隊的這種攻擊方法將在未來的 AI-Guardian 版本中不再可用,考慮到別的模型也會隨之跟進(jìn),因此當(dāng)下谷歌的這套攻擊方案更多在日后只能用于參考性質(zhì)。