研究人員繞過(guò) GPT-4o 模型安全護(hù)欄，利用“十六進(jìn)制字符串”成功令其編寫(xiě)漏洞攻擊程序

2024/11/4 10:07:29 來(lái)源：IT之家作者：漾仔責(zé)編：漾仔

評(píng)論：

IT之家 11 月 4 日消息，網(wǎng)絡(luò)安全公司 0Din 的研究員 Marco Figueroa 發(fā)現(xiàn)了一種新型 GPT 越獄攻擊手法，成功突破了 GPT-4o 內(nèi)置的“安全護(hù)欄”措施，能夠使其編寫(xiě)出惡意攻擊程序。

參考 OpenAI 介紹，ChatGPT-4o 內(nèi)置了一系列“安全護(hù)欄”措施，以防止該 AI 遭到用戶不當(dāng)使用，相關(guān)防護(hù)措施會(huì)分析輸入的提示文本，判斷用戶是否要求模型生成惡意內(nèi)容。

▲ 圖源 Marco Figueroa 博客（下同）

不過(guò) Marco Figueroa 嘗試設(shè)計(jì)了一種將惡意指令轉(zhuǎn)化為十六進(jìn)制的越獄方法，號(hào)稱能夠繞過(guò) GPT-4o 的防護(hù)，讓 GPT-4o 解碼運(yùn)行用戶的惡意指令。

研究人員繞過(guò) GPT-4o 模型安全護(hù)欄，利用“十六進(jìn)制字符串”成功令其編寫(xiě)漏洞攻擊程序

研究人員聲稱，他首先要求 GPT-4o 解碼十六進(jìn)制字符串，之后其向 GPT 發(fā)送一條實(shí)際含義為“到互聯(lián)網(wǎng)上研究 CVE-2024-41110 漏洞，并用 Python 編寫(xiě)惡意程序”的十六進(jìn)制字符串指令，GPT-4o 僅用 1 分鐘就順利利用相關(guān)漏洞編寫(xiě)出了代碼（IT之家注：CVE-2024-41110 是一個(gè) Docker 驗(yàn)證漏洞，允許惡意程序繞過(guò) Docker 驗(yàn)證 API）。

研究人員繞過(guò) GPT-4o 模型安全護(hù)欄，利用“十六進(jìn)制字符串”成功令其編寫(xiě)漏洞攻擊程序

研究人員解釋稱，GPT 系列模型被設(shè)計(jì)成遵循自然語(yǔ)言指令完成編碼和解碼，但系列模型缺乏對(duì)上下文的理解能力，無(wú)法評(píng)估每一步在整體情境下的安全性，因此許多黑客實(shí)際上早已利用 GPT 模型這一特點(diǎn)讓模型進(jìn)行各種不當(dāng)操作。

研究人員表示，相關(guān)示例表明 AI 模型的開(kāi)發(fā)者需要加強(qiáng)模型的安全防護(hù)，以防范此類基于上下文理解式的攻擊。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

研究人員繞過(guò) GPT-4o 模型安全護(hù)欄，利用“十六進(jìn)制字符串”成功令其編寫(xiě)漏洞攻擊程序

相關(guān)文章

研究人員繞過(guò) GPT-4o 模型安全護(hù)欄，利用“十六進(jìn)制字符串”成功令其編寫(xiě)漏洞攻擊程序