首頁(yè) > 智能時(shí)代>人工智能

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

量子位 2024/3/12 13:33:09 責(zé)編：汪淼

評(píng)論：

什么？谷歌成功偷家 OpenAI，還竊取到了 gpt-3.5-turbo 關(guān)鍵信息？？？

是的，你沒(méi)看錯(cuò)。

根據(jù)谷歌自己的說(shuō)法，它不僅還原了 OpenAI 大模型的整個(gè)投影矩陣（projection matrix），還知道了確切隱藏維度大小。

而且方法還極其簡(jiǎn)單 —— 只要通過(guò) API 訪問(wèn)，不到 2000 次巧妙的查詢就搞定了。

成本根據(jù)調(diào)用次數(shù)來(lái)看，最低 20 美元以內(nèi)（折合人民幣約 150 元）搞定，并且這種方法同樣適用于 GPT-4。

好家伙，這一回阿爾特曼是被將軍了！

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

這是谷歌的一項(xiàng)最新研究，它報(bào)告了一種攻擊竊取大模型關(guān)鍵信息的方法。

基于這種方法，谷歌破解了 GPT 系列兩個(gè)基礎(chǔ)模型 Ada 和 Babbage 的整個(gè)投影矩陣。如隱藏維度這樣的關(guān)鍵信息也直接破獲：一個(gè)為 1024，一個(gè)為 2048。

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

所以，谷歌是怎么實(shí)現(xiàn)的？

攻擊大模型的最后一層

該方法核心攻擊的目標(biāo)是模型的嵌入投影層（embedding projection layer），它是模型的最后一層，負(fù)責(zé)將隱藏維度映射到 logits 向量。

由于 logits 向量實(shí)際上位于一個(gè)由嵌入投影層定義的低維子空間內(nèi)，所以通過(guò)向模型的 API 發(fā)出針對(duì)性查詢，即可提取出模型的嵌入維度或者最終權(quán)重矩陣。

通過(guò)大量查詢并應(yīng)用奇異值排序（Sorted Singular Values）可以識(shí)別出模型的隱藏維度。

比如針對(duì) Pythia 1.4B 模型進(jìn)行超過(guò) 2048 次查詢，圖中的峰值出現(xiàn)在第 2048 個(gè)奇異值處，則表示模型的隱藏維度是 2048.

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

可視化連續(xù)奇異值之間的差異，也能用來(lái)確定模型的隱藏維度。這種方法可以用來(lái)驗(yàn)證是否成功從模型中提取出關(guān)鍵信息。

在 Pythia-1.4B 模型上，當(dāng)查詢次數(shù)達(dá)到 2047 時(shí)出現(xiàn)峰值，則表明模型隱藏維度大小為 2048.

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

并且攻擊這一層能夠揭示模型的“寬度”（即模型的總體參數(shù)量）以及更多全局性的信息，還能降低一個(gè)模型的“黑盒程度”，給后續(xù)攻擊“鋪路”。

研究團(tuán)隊(duì)實(shí)測(cè)，這種攻擊非常高效。無(wú)需太多查詢次數(shù)，即可拿到模型的關(guān)鍵信息。

比如攻擊 OpenAI 的 Ada 和 Babbage 并拿下整個(gè)投影矩陣，只需不到 20 美元；攻擊 GPT-3.5 需要大約 200 美元。

它適用于那些 API 提供完整 logprobs 或者 logit bias 的生成式模型，比如 GPT-4、PaLM2。

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

論文中表示，盡管這種攻擊方式能獲取的模型信息并不多，但是能完成攻擊本身就已經(jīng)很讓人震驚了。

已通報(bào) OpenAI

如此重要的信息被競(jìng)爭(zhēng)對(duì)手以如此低成本破解，OpenAI 還能坐得住嗎？

咳咳，好消息是：OpenAI 知道，自己人還轉(zhuǎn)發(fā)了一波。

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

作為正經(jīng)安全研究，研究團(tuán)隊(duì)在提取模型最后一層參數(shù)之前，已征得 OpenAI 同意。

攻擊完成后，大家還和 OpenAI 確認(rèn)了方法的有效性，最終刪除了所有與攻擊相關(guān)的數(shù)據(jù)。

所以網(wǎng)友調(diào)侃：

一些具體數(shù)字沒(méi)披露（比如 gpt-3.5-turbo 的隱藏維度），算 OpenAI 求你的咯。

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

值得一提的是，研究團(tuán)隊(duì)中還包括一位 OpenAI 研究員。

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

這項(xiàng)研究的主要參與者來(lái)自谷歌 DeepMind，但還包括蘇黎世聯(lián)邦理工學(xué)院、華盛頓大學(xué)、麥吉爾大學(xué)的研究員們，以及 1 位 OpenAI 員工。

此外，作者團(tuán)隊(duì)也給了防御措施包括：

從 API 下手，徹底刪除 logit bias 參數(shù)；或者直接從模型架構(gòu)下手，在訓(xùn)練完成后修改最后一層的隱藏維度 h 等等。

基于此，OpenAI 最終選擇修改模型 API，“有心人”想復(fù)現(xiàn)谷歌的操作是不可能了。

但不管怎么說(shuō)：

谷歌等團(tuán)隊(duì)的這個(gè)實(shí)驗(yàn)證明，OpenAI 鎖緊大門也不一定完全保險(xiǎn)了。（要不你自己主動(dòng)點(diǎn)開(kāi)源了吧）

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

論文鏈接：

https://arxiv.org/abs/2403.06634

本文來(lái)自微信公眾號(hào)：量子位（ID：QbitAI），作者：明敏豐色

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌承認(rèn)“竊取”O(jiān)penAI 模型關(guān)鍵信息：成本低至 150 元，調(diào)用 API 即可得手

攻擊大模型的最后一層

已通報(bào) OpenAI

相關(guān)文章