微軟發(fā)布 PyRIT 工具，幫專家和工程師識別生成式 AI 模型風險

2024/2/24 7:54:34 來源：IT之家作者：故淵責編：故淵

評論：

感謝IT之家網(wǎng)友華南吳彥祖的線索投遞！

IT之家 2 月 24 日消息，微軟近日發(fā)布了開源自動化框架 PyRIT，這是一款 Python 風險識別工具包，主要幫助安全專家和機器學習工程師識別生成式 AI 的風險，阻止他們的人工智能系統(tǒng)失控。

微軟的 AI Red Team 已經(jīng)使用該工具，檢查包括 Copilot 在內(nèi)生成式人工智能系統(tǒng)中風險。

微軟強調(diào)通過向公眾提供內(nèi)部工具，以及分享 AI Red Team 方面的其他投資成果，其目的是推動人工智能安全民主化。

微軟發(fā)布 PyRIT 工具，幫專家和工程師識別生成式 AI 模型風險

IT之家注：Red Team 是在軍事演習、網(wǎng)絡安全演習等領域中扮演敵人或競爭對手角色的群體，扮演己方角色的則稱作藍隊。Red Team 通常定義為敵方部隊，通過攻擊網(wǎng)絡來提高產(chǎn)品安全性。

微軟發(fā)布 PyRIT 工具，幫專家和工程師識別生成式 AI 模型風險

微軟 AI Red Team 專門成立了一個跨學科的安全專家小組，管理復雜的攻擊演習。PyRIT 框架的工作原理如下：

PyRit Agent 向目標 Gen AI 系統(tǒng)發(fā)送惡意提示詞；當它收到 Gen AI 系統(tǒng)的回應時，就會向 PyRIT 評分引擎發(fā)送回應。
評分引擎將響應發(fā)送給 PyRit 代理；然后，代理根據(jù)評分引擎的反饋發(fā)送新的提示。
這一自動化過程一直持續(xù)到安全專家得到所需的結果為止。

微軟已經(jīng)將相關代碼托管到 GitHub 上，感興趣的用戶可以深入閱讀。

廣告聲明：文內(nèi)含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

關鍵詞：微軟，人工智能

相關文章