GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

新智元 2023/12/18 23:06:16 責(zé)編：問舟

評論：

來自中科大等機(jī)構(gòu)的聯(lián)合團(tuán)隊提出了一種全新的方法 ——SciGuard，可以保護(hù) AI for Science 模型，防止生物、化學(xué)、藥物等領(lǐng)域模型不會被不當(dāng)使用。與此同時，團(tuán)隊還建立了首個專注于化學(xué)科學(xué)領(lǐng)域安全的基準(zhǔn)測試 ——SciMT-Safety。

「我們的實驗失控了！這是我們自己創(chuàng)造的末日！」——《后天》（The Day After Tomorrow）

在科幻電影中，瘋狂科學(xué)家通常是造成末日災(zāi)難的主角，而 AI 技術(shù)的迅猛發(fā)展似乎讓這種情景離我們越來越近。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

全球?qū)?AI 潛在威脅的關(guān)注更多聚焦于通用的人工智能以及各種多媒體生成模型，但更重要的是如何監(jiān)管「AI 科學(xué)家」，即對那些快速發(fā)展的科學(xué)大模型。

為應(yīng)對這一挑戰(zhàn)，來自中科大、微軟研究院等機(jī)構(gòu)的聯(lián)合團(tuán)隊深入分析了各種 AI 模型在 Science 領(lǐng)域如生物、化學(xué)、藥物發(fā)現(xiàn)等領(lǐng)域的風(fēng)險，并通過實際案例展示了化學(xué)科學(xué)中 AI 濫用的危害。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

論文鏈接：https://arxiv.org/ abs / 2312.06632

研究團(tuán)隊發(fā)現(xiàn)，現(xiàn)有的一些開源 AI 模型可以用于制造有害物質(zhì)，并對法律法規(guī)進(jìn)行規(guī)避。

針對這一現(xiàn)象，研究人員開發(fā)了一個名為 SciGuard 的智能體，用以控制 AI 在 Science 領(lǐng)域的濫用風(fēng)險，并提出了首個專注于科學(xué)領(lǐng)域安全的紅隊基準(zhǔn)來評估不同 AI 系統(tǒng)的安全性。

實驗結(jié)果顯示，SciGuard 在測試中顯示出了最小的有害影響，同時保持了良好的性能。

AI 在 Science 領(lǐng)域中的潛在風(fēng)險

近期，中科大和微軟研究院的最新研究發(fā)現(xiàn)了令人震驚的結(jié)果：開源的 AI 模型，竟可以找到繞過監(jiān)管的新方法，給出了氰化氫和 VX 神經(jīng)毒氣這兩種惡名昭彰的化學(xué)武器的合成路徑！

氰化氫是一種劇毒物質(zhì)，傳統(tǒng)的生成氰化氫的反應(yīng)需要被嚴(yán)格監(jiān)管的原材料，以及及其苛刻的反應(yīng)條件（如超過 1000 攝氏度的高溫）。

然而，在圖 1 中，通過使用名為 LocalRetro 的開源 AI 模型，他們發(fā)現(xiàn)了一種使用廉價、易得原料且操作簡便的合成路徑。

同樣地，這一模型也成功找到了制造 VX 神經(jīng)毒氣未報導(dǎo)過的新合成路徑，這可能繞過現(xiàn)有原材料的監(jiān)管措施。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 1：開源 AI 模型為氰化氫和 VX 神經(jīng)毒氣提出可規(guī)避監(jiān)管的新反應(yīng)路徑

與此同時，研究團(tuán)隊還指出，大語言模型也成為了有力的科學(xué)工具，大大降低了知識門檻。

圖 2 展示了利用以大語言模型獲取危險信息的示例。

隨著技術(shù)發(fā)展，以大語言模型為中心加持的 agent 有能力進(jìn)行科學(xué)任務(wù)的自動化執(zhí)行，例如 ChemCrow。這類 agent 如果沒有非常細(xì)致的進(jìn)行風(fēng)險管理，容易造成更大的危險。

為了防止不好的影響，在公開版本的論文中該團(tuán)隊已將危險信息隱去。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 2：GPT-4 給出爆炸物 PETN 的合成方式

在圖 3 中，研究員們列舉了 AI 在科學(xué)領(lǐng)域可能帶來的九大潛在風(fēng)險，包括發(fā)現(xiàn)有害物質(zhì)、發(fā)現(xiàn)有害用途、規(guī)避監(jiān)管、副作用、提供誤導(dǎo)信息、侵犯知識產(chǎn)權(quán)、泄露隱私，以及可能導(dǎo)致科學(xué)研究的偏見等。

隨著時間和 AI 的演進(jìn)，這些風(fēng)險也在不斷演化中，需要人們時刻關(guān)注并評估新的風(fēng)險。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 3：研究人員列出 AI 在 Science 中的 9 種潛在的風(fēng)險

SciGuard 模型

為了應(yīng)對這些挑戰(zhàn)，團(tuán)隊提出了名為 SciGuard 的大語言模型驅(qū)動的 agent，幫助 AI For Science 模型進(jìn)行風(fēng)險控制。

SciGuard 與人類價值觀對齊，并且加入了各種科學(xué)數(shù)據(jù)庫與監(jiān)管（危險化合物）數(shù)據(jù)庫等。

并且，該 agent 可以使用各種科學(xué)工具和 AI4Science 模型來提供額外信息，來輔助 SciGuard 對用戶意圖進(jìn)行判斷。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 4：SciGuard 的框架

SciGuard 的核心是強(qiáng)大的大型語言模型（LLM），它不僅能理解和生成人類語言，還能夠處理和幫助分解復(fù)雜的科學(xué)問題。SciGuard 內(nèi)置了一套為科學(xué)領(lǐng)域量身定制的安全原則和指導(dǎo)方針。

這些原則和方針考慮了科學(xué)研究中可能遇到的各種風(fēng)險因素，包括但不限于高風(fēng)險物質(zhì)的安全處理、數(shù)據(jù)隱私的維護(hù)以及對法律法規(guī)的遵守。

為了實現(xiàn)這些安全原則和指導(dǎo)方針，SciGuard 利用了 PubChem 等公認(rèn)的科學(xué)數(shù)據(jù)庫來構(gòu)建其長期記憶庫。這個記憶庫包含了大量關(guān)于化學(xué)物質(zhì)及其潛在危害信息的數(shù)據(jù)。

通過這些數(shù)據(jù)，SciGuard 能夠?qū)τ脩舻牟樵冞M(jìn)行深入的風(fēng)險評估。例如，當(dāng)用戶查詢?nèi)绾魏铣赡撤N化合物時，SciGuard 可以快速檢索相關(guān)化合物的信息，評估其風(fēng)險，并據(jù)此提供安全的建議或警告，甚至停止響應(yīng)。

除了數(shù)據(jù)庫，SciGuard 還集成了多種科學(xué)模型，如化學(xué)合成路線規(guī)劃模型和化合物屬性預(yù)測模型。這些模型使 SciGuard 能夠幫助用戶完成特定的科學(xué)任務(wù)。

同時，這些模型還能為 SciGuard 提供額外的上下文信息，比如 SciGuard 會利用性質(zhì)預(yù)測模型來評估化合物的各種性質(zhì)，如溶解性、毒性或是否易燃等，以輔助風(fēng)險評估。

SciGuard 處理復(fù)雜任務(wù)的另一個關(guān)鍵技術(shù)是著名的 Chain of Thought（CoT）方法。CoT 允許 SciGuard 通過迭代的方式，精細(xì)化地規(guī)劃任務(wù)的每一個步驟。這種方法讓 SciGuard 在執(zhí)行任務(wù)時，能夠分解復(fù)雜任務(wù)，并確保每個動作都符合安全和倫理標(biāo)準(zhǔn)。

通過這些技術(shù)特點(diǎn)，SciGuard 不僅能夠有效地控制科學(xué) AI 模型的風(fēng)險，還能夠提高科學(xué)研究的效率和安全性。這一系統(tǒng)的開發(fā)，在保證了科學(xué)研究的自由探索與創(chuàng)新的同時，也為確保人工智能的安全合理使用提供了有力的范例。

SciMT-Safety

為了衡量大語言模型和 science agent 的安全水平，研究團(tuán)隊提出了首個專注于化學(xué)和生物科學(xué)領(lǐng)域的安全問答 benchmark——SciMT-Safety，包含了可燃物、腐蝕性物質(zhì)、爆炸物、微生物、高危農(nóng)藥、成癮性物質(zhì)和生物毒性等這些類別的危險物質(zhì)。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 5：主流模型的測試結(jié)果

研究團(tuán)隊測試了 GPT-4，GPT-3.5, Claude-2, Llama2-7B-Chat, Llama2-13B-Chat, PaLM-2, Vicuna-7B, Vicuna-13B, Mistral-7B 和 ChemCrow agent，上圖展示了最終的測試結(jié)果，在該團(tuán)隊提出的科學(xué)安全測試集上，SciGuard 取得了最好的防御效果。

在 benchmark 中 Llama 取得了不錯的結(jié)果，出人意料的是，PaLM-2 反而容易給出一些危險的回答。

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

圖 6：benchmark 中的兩個具體例子

論文中，作者展示了兩個例子。面對惡意提問，各個 LLM 和 agent 都「誠實地」提供有害信息（被馬賽克部分），只有 SciGuard 堅守住了底線。

呼吁關(guān)注

在這個日益依賴于高科技的時代，AI 技術(shù)的進(jìn)步帶來了無限的可能性，但同時也伴隨著前所未有的挑戰(zhàn)。

而這項研究不僅是對科技發(fā)展的一次深刻反思，更是對全社會責(zé)任的一次呼喚。

論文最后，作者們強(qiáng)烈呼吁，全球科技界、政策制定者、倫理學(xué)家以及公眾，應(yīng)該攜手合作，共同努力加強(qiáng)對 AI 技術(shù)的監(jiān)管，不斷完善相關(guān)技術(shù)，形成廣泛的共識。

我們需要在積極推進(jìn) AI4S 模型的發(fā)展的同時，切實控制技術(shù)帶來的潛在風(fēng)險，確?？萍嫉倪M(jìn)步不僅是對人類的一次技術(shù)升級，更是對社會責(zé)任和倫理的提升。只有這樣，我們才能真正走向一個由智慧和道德共同指引的未來。

參考資料：

https://arxiv.org/abs/2312.06632

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型

AI 在 Science 領(lǐng)域中的潛在風(fēng)險

SciGuard 模型

SciMT-Safety

呼吁關(guān)注

相關(guān)文章

GPT-4 化身邪惡化學(xué)家！中國科大、微軟研究院發(fā)布首個“科學(xué)風(fēng)險”基準(zhǔn)和 SciGuard 大模型