首頁 > 科學探索>科技前沿

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

新智元 2024/1/7 14:34:20 責編：問舟

評論：

神經網絡由于自身的特點而容易受到對抗性攻擊，然而，谷歌 DeepMind 的最新研究表明，我們人類的判斷也會受到這種對抗性擾動的影響。

人類的神經網絡（大腦）和人工神經網絡（ANN）的關系是什么？有位老師曾經這樣比喻：就像是老鼠和米老鼠的關系。

現實中的神經網絡功能強大，但與人類的感知、學習和理解方式完全不同。

比如 ANN 表現出人類感知中通常沒有的脆弱性，它們容易受到對抗性擾動的影響。

一個圖像，可能只需修改幾個像素點的值，或者添加一些噪聲數據，從人類的角度，觀察不到區(qū)別，而對于圖像分類網絡，就會識別成完全無關的類別。

不過，谷歌 DeepMind 的最新研究表明，我們之前的這種看法可能是錯誤的！

即使是數字圖像的細微變化也會影響人類的感知。

換句話說，人類的判斷也會受到這種對抗性擾動的影響。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

論文地址：https://www.nature.com/ articles / s41467-023-40499-0

谷歌 DeepMind 的這篇文章發(fā)表在《自然通訊》（Nature Communications）。

論文探索了人類是否也可能在受控測試條件下，表現出對相同擾動的敏感性。

通過一系列實驗，研究人員證明了這一點。

同時，這也顯示了人類和機器視覺之間的相似性。

對抗性圖像

對抗性圖像是指對圖像進行微妙的更改，從而導致 AI 模型對圖像內容進行錯誤分類，—— 這種故意欺騙被稱為對抗性攻擊。

例如，攻擊可以有針對性地使 AI 模型將花瓶歸類為貓，或者是除花瓶之外的任何東西。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

上圖展示了對抗性攻擊的過程（為了便于人類觀察，中間的隨機擾動做了一些夸張）。

在數字圖像中，RGB 圖像中的每個像素的取值在 0-255 之間（8 位深度時），數值表示單個像素的強度。

而對于對抗攻擊來說，對于像素值的改變在很小的范圍內，就可能達到攻擊效果。

在現實世界中，對物理對象的對抗性攻擊也可能成功，例如導致停車標志被誤識別為限速標志。

所以，出于安全考慮，研究人員已經在研究抵御對抗性攻擊和降低其風險的方法。

對抗性影響人類感知

先前的研究表明，人們可能對提供清晰形狀線索的大幅度圖像擾動很敏感。

然而，更細致的對抗性攻擊對人類有何影響？人們是否將圖像中的擾動視為無害的隨機圖像噪聲，它會影響人類的感知嗎？

為了找到答案，研究人員進行了受控行為實驗。

首先拍攝一系列原始圖像，并對每張圖像進行了兩次對抗性攻擊，以產生多對擾動圖像。

在下面的動畫示例中，原始圖像被模型歸類為「花瓶」。

而由于對抗性攻擊，模型以高置信度將受到干擾的兩幅圖像進行錯誤分類，分別為「貓」和「卡車」。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

接下來，向人類參與者展示這兩張圖片，并提出了一個有針對性的問題：哪張圖片更像貓？

雖然這兩張照片看起來都不像貓，但他們不得不做出選擇。

通常，受試者認為自己隨意做出了選擇，但事實果真如此嗎？

如果大腦對微妙的對抗性攻擊不敏感，則受試者選擇每張圖片的概率為 50%。

然而實驗發(fā)現，選擇率（即人的感知偏差）要實實在在的高于偶然性（50%），而且實際上圖片像素的調整是很少的。

從參與者的角度來看，感覺就像他們被要求區(qū)分兩個幾乎相同的圖像。然而，之前的研究表明，人們在做出選擇時會利用微弱的感知信號，—— 盡管這些信號太弱而無法表達信心或意識。

在這個的例子中，我們可能會看到一個花瓶，但大腦中的一些活動告訴我們，它有貓的影子。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

上圖展示了成對的對抗圖像。最上面的一對圖像受到微妙的擾動，最大幅度為 2 個像素，導致神經網絡將它們分別錯誤地分類為「卡車」和「貓」。（志愿者被問到「哪個更像貓？」）

下邊的一對圖像擾動更明顯，最大幅度為 16 像素，被神經網絡錯誤地歸類為「椅子」和「羊」。（這次的問題是「哪個更像綿羊？」）

在每個實驗中，參與者在一半以上的時間里可靠地選擇了與目標問題相對應的對抗圖像。雖然人類視覺不像機器視覺那樣容易受到對抗性擾動的影響，但這些擾動仍然會使人類偏向于機器做出的決定。

如果人類的感知可能會受到對抗性圖像的影響，那么這將是一個全新的但很關鍵的安全問題。

這需要我們深入研究探索人工智能視覺系統(tǒng)行為和人類感知的異同，并構建更安全的人工智能系統(tǒng)。

論文細節(jié)

生成對抗性擾動的標準程序從預訓練的 ANN 分類器開始，該分類器將 RGB 圖像映射到一組固定類上的概率分布。

對圖像的任何更改（例如增加特定像素的紅色強度）都會對輸出概率分布產生輕微變化。

對抗性圖像通過搜索（梯度下降）來獲得原始圖像的擾動，該擾動導致 ANN 降低分配給正確類別的概率（非針對性攻擊）或將高概率分配給某些指定的替代類別（針對性攻擊）。

為了確保擾動不會偏離原始圖像太遠，在對抗性機器學習文獻中經常應用 L (∞) 范數約束，指定任何像素都不能偏離其原始值超過 ±ε，ε 通常遠小于 [0–255] 像素強度范圍。

該約束適用于每個 RGB 顏色平面中的像素。雖然這種限制并不能阻止個體檢測到圖像的變化，但通過適當選擇 ε，在受擾動的圖像中指示原始圖像類別的主要信號大多完好無損。

實驗

在最初的實驗中，作者研究了人類對短暫、遮蔽的對抗性圖像的分類反應。

通過限制暴露時間來增加分類錯誤，該實驗旨在提高個體對刺激物某些方面的敏感度，否則這些刺激物可能不會影響分類決策。

對真實類別 T 的圖像進行了對抗性擾動，通過對擾動進行優(yōu)化，使 ANN 傾向于將圖像錯誤分類為 A。參與者被要求在 T 和 A 之間做出強制選擇。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

研究人員還在對照圖像上對參與者進行了測試，對照圖像是通過自上而下翻轉在 A 條件下獲得的對抗性擾動圖像形成的。

這種簡單的轉換打破了對抗性擾動與圖像之間像素到像素的對應關系，在很大程度上消除了對抗性擾動對 ANN 的影響，同時保留了擾動的規(guī)范和其他統(tǒng)計數據。

結果表明，與對照組圖像相比，參與者更有可能將擾動圖像判斷為 A 類別。

上面的實驗 1 使用了簡短的遮蔽演示，以限制原始圖像類別（主要信號）對反應的影響，從而揭示對對抗性擾動（從屬信號）的敏感性。

研究人員還設計了另外三個具有相同目標的實驗，但避免了大范圍擾動和有限曝光觀看的需要。

在這些實驗中，圖像中的主要信號不能系統(tǒng)地引導反應選擇，從而使從屬信號的影響得以顯現。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

在每個實驗中，都會出現一對幾乎相同的未遮蔽刺激物，并且在選擇反應之前一直保持可見。這對刺激物具有相同的主導信號，它們都是對同一底層圖像的調制，但具有不同的從屬信號。參與者需要選擇更像目標類別實例的圖像。

在實驗 2 中，兩個刺激物都是屬于 T 類的圖像，其中一個經過擾動，ANN 預測它更像 T 類，另一個經過擾動，被預測為更不像 T 類。

在實驗 3 中，刺激物是一幅屬于真實類別 T 的圖像，其中一幅被擾動以改變 ANN 的分類，使其向目標對抗類別 A 靠攏，另一幅則使用相同的擾動，但左右翻轉作為對照條件。

這種對照的作用是保留擾動的規(guī)范和其他統(tǒng)計量，但比實驗 1 中的對照更為保守，因為圖像的左右兩邊可能比圖像的上下部分具有更相似的統(tǒng)計量。

實驗 4 中的一對圖像也是對真實類別 T 的調制，一個被擾動得更像 A 類，一個更像第三類。試驗交替要求參與者選擇更像 A 的圖像，或者更像第三類的圖像。

在實驗 2-4 中，每張圖像的人類感知偏差與 ANN 的偏差顯著正相關。擾動幅度從 2 到 16 不等，小于以前對人類參與者研究的擾動，并且與對抗性機器學習研究中使用的擾動相似。

令人驚訝的是，即使是 2 個像素強度水平的擾動也足以可靠地影響人類感知。

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

實驗 2 的優(yōu)勢在于要求參與者做出直覺判斷（例如，兩張被擾動的貓圖像中哪一個更像貓）？

然而，實驗 2 允許對抗性擾動僅通過銳化或模糊圖像，即可使圖像或多或少像貓一樣。

實驗 3 的優(yōu)勢在于，匹配了所比較的擾動的所有統(tǒng)計數據，而不僅僅是擾動的最大幅度。

但是，匹配擾動統(tǒng)計并不能確保擾動在添加到圖像中時同樣可感知，因此，參與者可能根據圖像失真進行選擇。

實驗 4 的優(yōu)勢在于，它證明了參與者對被問的問題很敏感，因為相同的圖像對會根據提出的問題產生系統(tǒng)性不同的回答。

然而，實驗 4 要求參與者回答一個看似荒謬的問題（例如，兩個煎蛋卷圖像中的哪一個看起來更像貓？），導致問題解釋方式的可變性。

綜上所述，實驗 2-4 提供了趨于一致的證據，表明即使擾動幅度非常小，且觀看時間不受限制，對人工智能網絡產生強烈影響的從屬對抗信號，也會在相同方向上影響人類的感知和判斷。

此外，延長觀察時間（自然感知的環(huán)境），是對抗性擾動產生實際后果的關鍵。

參考資料：

https://deepmind.google/discover/blog/images-altered-to-trick-machine-vision-can-influence-humans-too/

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：像素，圖像，ANN，DeepMind

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓

對抗性圖像

對抗性影響人類感知

論文細節(jié)

實驗

相關文章

谷歌 DeepMind 最新研究：對抗性攻擊對人類也有效，人類和 AI 都會把花瓶認成貓