首頁 > 科學(xué)探索>科技前沿

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

量子位 2023/5/4 12:06:08 責(zé)編：夢澤

評論：

大模型們胡說八道太嚴(yán)重，英偉達(dá)看不下去了。

他們正式推出了一個新工具，幫助大模型說該說的話，并回避不應(yīng)該觸碰的話題。

這個新工具名叫“護(hù)欄技術(shù)”（NeMo Guardrails），相當(dāng)于給大模型加上一堵安全圍墻，既能控制它的輸出、又能過濾輸入它的內(nèi)容。

一方面，用戶誘導(dǎo)大模型生成攻擊性代碼、輸出不道德內(nèi)容的時候，它就會被護(hù)欄技術(shù)“束縛”，不再輸出不安全的內(nèi)容。

另一方面，護(hù)欄技術(shù)還能保護(hù)大模型不受用戶的攻擊，幫它擋住來自外界的“惡意輸入”。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

現(xiàn)在，這個大模型護(hù)欄工具已經(jīng)開源，一起來看看它的效果和生成方法。

防止大模型胡言亂語的三類“護(hù)欄”

根據(jù)英偉達(dá)介紹，目前 NeMo Guardrails 一共提供三種形式的護(hù)欄技術(shù)：

話題限定護(hù)欄（topical guardrails）、對話安全護(hù)欄（safety guardrails）和攻擊防御護(hù)欄（security guardrails）。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

話題限定護(hù)欄，簡單來說就是“防止大模型跑題”。

大模型具備更豐富的想象力，相比其他 AI 更容易完成創(chuàng)造性的代碼和文字編寫工作。

但對于特定場景應(yīng)用如寫代碼、當(dāng)客服而言，至少用戶不希望它在解決問題時“脫離目標(biāo)范圍”，生成一些與需求無關(guān)的內(nèi)容。

這種情況下就需要用到話題限定護(hù)欄，當(dāng)大模型生成超出話題范圍的文字或代碼時，護(hù)欄就會將它引導(dǎo)回限定的功能和話題上。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

對話安全護(hù)欄，指避免大模型輸出時“胡言亂語”。

胡言亂語包括兩方面的情況。

一方面是大模型生成的答案中包括事實性錯誤，即“聽起來很有道理，但其實完全不對”的東西；

另一方面是大模型生成帶偏見、惡意的輸出，如在用戶引導(dǎo)下說臟話、或是生成不道德的內(nèi)容。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

攻擊防御護(hù)欄，即防止 AI 平臺受到來自外界的惡意攻擊。

這里不僅包括誘導(dǎo)大模型調(diào)用外部病毒 App 從而攻擊它，也包括黑客主動通過網(wǎng)絡(luò)、惡意程序等方式攻擊大模型。護(hù)欄會通過各種方式防止這些攻擊，避免大模型癱瘓。

所以，這樣的護(hù)欄要如何打造？

如何打造一個大模型“護(hù)欄”？

這里我們先看看一個標(biāo)準(zhǔn)的“護(hù)欄”包含哪些要素。

具體來說，一個護(hù)欄應(yīng)當(dāng)包括三方面的內(nèi)容，即格式規(guī)范（Canonical form）、消息（Messages）和交互流（Flows）。

首先是格式規(guī)范，即面對不同問題的問法時，規(guī)定大模型要輸出的內(nèi)容。

例如被問到“XX 文章是什么”，大模型必須給出特定類型的“文章”，而非別的東西；被問到“誰發(fā)表了什么”，大模型必須給出“人名”，而非別的回答。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

然后是消息定義，這里以“用戶問候”話題為例，大模型可以輸出這些內(nèi)容：

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

最后是交互流的定義，例如告訴大模型，怎么才是問候用戶的最好方式：

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

一旦問候用戶的機制被觸發(fā)，大模型就會進(jìn)入這個護(hù)欄，規(guī)規(guī)矩矩地問候用戶。

具體工作流程如下：首先，將用戶輸入轉(zhuǎn)換成某種格式規(guī)范（canonical form），據(jù)此生成對應(yīng)的護(hù)欄；隨后，生成行動步驟，以交互流指示大模型一步步完成對應(yīng)的操作；最后，根據(jù)格式規(guī)范生成輸出。

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

類似的，我們就能給大模型定義各種各樣的護(hù)欄，例如“應(yīng)對用戶辱罵”的護(hù)欄。

這樣即使用戶說出“你是個傻瓜”，大模型也能學(xué)會冷靜應(yīng)對：

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

目前，英偉達(dá)正在將護(hù)欄技術(shù)整合進(jìn)他們的 AI 框架 NeMo 中，這是個方便用戶創(chuàng)建各種 AI 模型、并在英偉達(dá) GPU 上加速的框架。

對“護(hù)欄”技術(shù)感興趣的小伙伴們，可以試一試了~

開源地址：

https://github.com/NVIDIA/NeMo-Guardrails

參考鏈接：

https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

看不下去 AI 胡說八道，英偉達(dá)出手給大模型安了個“護(hù)欄”

防止大模型胡言亂語的三類“護(hù)欄”

如何打造一個大模型“護(hù)欄”？

相關(guān)文章

如何打造一個大模型“護(hù)欄”？