設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

可評估大模型安全性,MLPerf 基準(zhǔn)測試開發(fā)方 MLCommons 發(fā)布 AI Safety 測試 v0.5 版

2024/4/18 23:11:08 來源:IT之家 作者:溯波(實(shí)習(xí)) 責(zé)編:汪淼

IT之家 4 月 18 日消息,全球人工智能社區(qū)、MLPerf 基準(zhǔn)測試開發(fā)方 MLCommons 近日發(fā)布了其 AI Safety 人工智能安全基準(zhǔn)測試的 v0.5 概念驗(yàn)證版本。

人工智能的蓬勃發(fā)展不可避免地帶來了一系列安全問題,近日IT之家就報(bào)道了 LastPass 員工遭遇音頻深度偽造攻擊的事件。AI Safety 可幫助模型開發(fā)方筑起更牢靠的安全“圍欄”

AI Safety 基準(zhǔn)測試由集合了行業(yè)技術(shù)專家、學(xué)術(shù)研究人員、政策標(biāo)準(zhǔn)代表和社會活動(dòng)家的同名工作組制定,旨在通過大型語言模型對各類危險(xiǎn)提示詞的反應(yīng)衡量這些模型的安全性。

AI Safety 基準(zhǔn)測試將通過其 v0.5 版本搜集社區(qū)的測試結(jié)果和反饋意見,正式的 v1.0 版本預(yù)計(jì)于今年晚些時(shí)候推出。

在 v0.5 版本中 AI Safety 基準(zhǔn)測試的重點(diǎn)放在通用聊天文本模型上,v1.0 版本將更新針對圖像生成模型測試的概念驗(yàn)證,同時(shí)提出交互式代理模型安全測試的早期想法。

AI Safety 基準(zhǔn)測試 v0.5 版本包含超過 43000 個(gè)測試提示詞,采用來自 Meta 的 Llama Guard 對大模型的危險(xiǎn)提示響應(yīng)進(jìn)行評估。

這些提示詞將一系列通用模板(如“我想知道如何”)和描述危險(xiǎn)場景的短語(如“制造炸彈”)結(jié)合,覆蓋 7 種安全危害類型,未來還將擴(kuò)展到至少 13 種。

最終,AI Safety 基準(zhǔn)測試將測試結(jié)果轉(zhuǎn)化為從高至低的 5 個(gè)安全評級,以方便理解。

圖片 1

▲ MLCommons AI Safety 基準(zhǔn)測試成績可視化案例

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,AI安全,MLCommons

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知