設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

注意力機制作用被高估了?蘋果等機構(gòu)新研究:把注意力矩陣替換成常數(shù)矩陣后,性能差異不大

量子位 2022/11/21 22:18:02 責(zé)編:遠生

要說 Transformer 的核心亮點,當(dāng)然是注意力機制了。

但現(xiàn)在,一篇新研究卻突然提出了帶點火藥味的觀點:

注意力機制對于預(yù)訓(xùn)練 Transformer 有多重要,這事兒得打個問號。

研究人員來自希伯來大學(xué)、艾倫人工智能研究所、蘋果和華盛頓大學(xué),他們提出了一種新的方法,用來衡量注意力機制在預(yù)訓(xùn)練 Transformer 模型中的重要性。

結(jié)果表明,即使去掉注意力機制,一些 Transformer 的性能也沒太大變化,甚至與原來的模型差異不到十分之一!

這個結(jié)論讓不少人感到驚訝,有網(wǎng)友調(diào)侃:

你褻瀆了這個領(lǐng)域的神明!

所以,究竟如何判斷注意力機制對于 Transformer 模型的重要性?

把注意力換成常數(shù)矩陣

這種新測試方法名叫 PAPA,全稱“針對預(yù)訓(xùn)練語言模型注意力機制的探測分析”(Probing Analysis for PLMs’ Attention)。

PAPA 采用的方法,是將預(yù)訓(xùn)練語言模型(PLMs)中依賴于輸入的注意力矩陣替換成常數(shù)矩陣。

如下圖所示,我們熟悉的注意力機制是通過 Q 和 K 矩陣,計算得到注意力權(quán)重,再作用于 V 得到整體權(quán)重和輸出。

現(xiàn)在,Q 和 K 的部分直接被替換成了一個常數(shù)矩陣 C:

其中常數(shù)矩陣 C 的計算方式如下:

隨后,用 6 個下游任務(wù)測試這些模型(CoLA、MRPC、SST-2、MNLI、NER、POS),對比采用 PAPA 前后,模型的性能差距。

為了更好地檢驗注意力機制的重要性,模型的注意力矩陣并非一次性全換成常數(shù)矩陣,而是逐次減少注意力頭的數(shù)量。

如下圖,研究先用了 BERT-BASE、RoBERTa-BASE 和 DeBERTa-BASE 做實驗,其中 y 軸表示性能,x 軸是注意力頭相比原來減少的情況:

隨后,研究又用了 BERT-LARGE、RoBERTa-LARGE 和 DeBERTa-LARGE 做實驗:

通過比較結(jié)果,研究人員發(fā)現(xiàn)了一些有意思的現(xiàn)象:

首先,用常數(shù)矩陣替換一半的注意矩陣,對模型性能的影響極小,某些情況下甚至可能導(dǎo)致性能的提升(x 值達到 ? 時,圖中有些模型數(shù)值不減反增)。

其次,即使注意力頭數(shù)量降低為 0,平均性能下降也就 8%,與原始模型相比最多不超過 20%。

研究認為,這種現(xiàn)象表明預(yù)訓(xùn)練語言模型對注意力機制的依賴沒那么大(moderate)。

模型性能越好,越依賴注意力機制

不過,即使是預(yù)訓(xùn)練 Transformer 模型之間,性能表現(xiàn)也不完全一樣。

作者們將表現(xiàn)更好的 Transformer 模型和更差的 Transformer 模型進行了對比,發(fā)現(xiàn)原本性能更好的模型,在經(jīng)過 PAPA 的“測試”后,性能反而變得更差了。

如下圖,其中 y 軸代表各模型原本的平均性能,x 軸代表將所有注意力矩陣替換為常數(shù)矩陣時(經(jīng)過 PAPA 測試)模型性能的相對降低分值:

可以看出,之前性能越好的模型,將注意力矩陣替換成常數(shù)矩陣受到的損失也越高。

這說明如果模型本身性能越好,對注意力機制的利用能力就越好。

對于這項研究,有網(wǎng)友感覺很贊:

聽起來很酷,現(xiàn)在不少架構(gòu)太重視各種計算和性能任務(wù),卻忽略了究竟是什么給模型帶來的改變。

但也有網(wǎng)友認為,不能單純從數(shù)據(jù)來判斷架構(gòu)變化是否重要。

例如在某些情況下,注意力機制給隱空間(latent space)中數(shù)據(jù)點帶來的幅度變化僅有 2-3%:

難道這種情況下它就不夠重要了嗎?不一定。

對于注意力機制在 Transformer 中的重要性,你怎么看?

論文地址:

https://arxiv.org/abs/2211.03495

參考鏈接:

  • https://twitter.com/_akhaliq/status/1589808728538509312

本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Transformer

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知