設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟發(fā)布 PyRIT 工具,幫專(zhuān)家和工程師識(shí)別生成式 AI 模型風(fēng)險(xiǎn)

2024/2/24 7:54:34 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 華南吳彥祖 的線索投遞!

IT之家 2 月 24 日消息,微軟近日發(fā)布了開(kāi)源自動(dòng)化框架 PyRIT,這是一款 Python 風(fēng)險(xiǎn)識(shí)別工具包,主要幫助安全專(zhuān)家和機(jī)器學(xué)習(xí)工程師識(shí)別生成式 AI 的風(fēng)險(xiǎn),阻止他們的人工智能系統(tǒng)失控。

微軟的 AI Red Team 已經(jīng)使用該工具,檢查包括 Copilot 在內(nèi)生成式人工智能系統(tǒng)中風(fēng)險(xiǎn)。

微軟強(qiáng)調(diào)通過(guò)向公眾提供內(nèi)部工具,以及分享 AI Red Team 方面的其他投資成果,其目的是推動(dòng)人工智能安全民主化。

IT之家注:Red Team 是在軍事演習(xí)、網(wǎng)絡(luò)安全演習(xí)等領(lǐng)域中扮演敵人或競(jìng)爭(zhēng)對(duì)手角色的群體,扮演己方角色的則稱(chēng)作藍(lán)隊(duì)。Red Team 通常定義為敵方部隊(duì),通過(guò)攻擊網(wǎng)絡(luò)來(lái)提高產(chǎn)品安全性。

微軟 AI Red Team 專(zhuān)門(mén)成立了一個(gè)跨學(xué)科的安全專(zhuān)家小組,管理復(fù)雜的攻擊演習(xí)。PyRIT 框架的工作原理如下:

  • PyRit Agent 向目標(biāo) Gen AI 系統(tǒng)發(fā)送惡意提示詞;當(dāng)它收到 Gen AI 系統(tǒng)的回應(yīng)時(shí),就會(huì)向 PyRIT 評(píng)分引擎發(fā)送回應(yīng)。

  • 評(píng)分引擎將響應(yīng)發(fā)送給 PyRit 代理;然后,代理根據(jù)評(píng)分引擎的反饋發(fā)送新的提示。

  • 這一自動(dòng)化過(guò)程一直持續(xù)到安全專(zhuān)家得到所需的結(jié)果為止。

微軟已經(jīng)將相關(guān)代碼托管到 GitHub 上,感興趣的用戶可以深入閱讀。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知