IT之家 2 月 24 日消息,微軟近日發(fā)布了開(kāi)源自動(dòng)化框架 PyRIT,這是一款 Python 風(fēng)險(xiǎn)識(shí)別工具包,主要幫助安全專(zhuān)家和機(jī)器學(xué)習(xí)工程師識(shí)別生成式 AI 的風(fēng)險(xiǎn),阻止他們的人工智能系統(tǒng)失控。
微軟的 AI Red Team 已經(jīng)使用該工具,檢查包括 Copilot 在內(nèi)生成式人工智能系統(tǒng)中風(fēng)險(xiǎn)。
微軟強(qiáng)調(diào)通過(guò)向公眾提供內(nèi)部工具,以及分享 AI Red Team 方面的其他投資成果,其目的是推動(dòng)人工智能安全民主化。
IT之家注:Red Team 是在軍事演習(xí)、網(wǎng)絡(luò)安全演習(xí)等領(lǐng)域中扮演敵人或競(jìng)爭(zhēng)對(duì)手角色的群體,扮演己方角色的則稱(chēng)作藍(lán)隊(duì)。Red Team 通常定義為敵方部隊(duì),通過(guò)攻擊網(wǎng)絡(luò)來(lái)提高產(chǎn)品安全性。
微軟 AI Red Team 專(zhuān)門(mén)成立了一個(gè)跨學(xué)科的安全專(zhuān)家小組,管理復(fù)雜的攻擊演習(xí)。PyRIT 框架的工作原理如下:
PyRit Agent 向目標(biāo) Gen AI 系統(tǒng)發(fā)送惡意提示詞;當(dāng)它收到 Gen AI 系統(tǒng)的回應(yīng)時(shí),就會(huì)向 PyRIT 評(píng)分引擎發(fā)送回應(yīng)。
評(píng)分引擎將響應(yīng)發(fā)送給 PyRit 代理;然后,代理根據(jù)評(píng)分引擎的反饋發(fā)送新的提示。
這一自動(dòng)化過(guò)程一直持續(xù)到安全專(zhuān)家得到所需的結(jié)果為止。
微軟已經(jīng)將相關(guān)代碼托管到 GitHub 上,感興趣的用戶可以深入閱讀。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。