關(guān)于大模型注意力機(jī)制,Meta 又有了一項(xiàng)新研究。
通過(guò)調(diào)整模型注意力,屏蔽無(wú)關(guān)信息的干擾,新的機(jī)制讓大模型準(zhǔn)確率進(jìn)一步提升。
而且這種機(jī)制不需要微調(diào)或訓(xùn)練,只靠 Prompt 就能讓大模型的準(zhǔn)確率上升 27%。
作者把這種注意力機(jī)制命名為“System 2 Attention”(S2A),它來(lái)自于 2002 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾?卡尼曼的暢銷書《思考,快與慢》中提到的心理學(xué)概念 —— 雙系統(tǒng)思維模式中的“系統(tǒng) 2”。
所謂系統(tǒng) 2 是指復(fù)雜有意識(shí)的推理,與之相對(duì)的是系統(tǒng) 1,即簡(jiǎn)單無(wú)意識(shí)的直覺(jué)。
S2A 通過(guò)提示詞對(duì) Transformer 中的注意力機(jī)制進(jìn)行了“調(diào)節(jié)”,使模型整體上的思考方式更接近系統(tǒng) 2。
有網(wǎng)友形容,這種機(jī)制像是給 AI 加了一層“護(hù)目鏡”。
此外,作者還在論文標(biāo)題中說(shuō),不只是大模型,這種思維模式或許人類自己也需要學(xué)習(xí)。
那么,這種方法具體是如何實(shí)現(xiàn)的呢?
避免大模型被“誤導(dǎo)”
傳統(tǒng)大模型常用的 Transformer 架構(gòu)中使用的是軟注意力機(jī)制 —— 它給每個(gè)詞(token)都分配了 0 到 1 之間的注意力值。
與之相對(duì)應(yīng)的概念是硬注意力機(jī)制,它只關(guān)注輸入序列的某個(gè)或某些子集,更常用于圖像處理。
而 S2A 機(jī)制可以理解成兩種模式的結(jié)合 —— 核心依然是軟注意力,但在其中加入了一個(gè)“硬”篩選的過(guò)程。
具體操作上,S2A 不需要對(duì)模型本身做出調(diào)整,而是通過(guò)提示詞讓模型在解決問(wèn)題前先把“不應(yīng)該注意的內(nèi)容”去除。
這樣一來(lái),就可以降低大模型在處理帶有主觀色彩或不相關(guān)信息的提示詞時(shí)受到誤導(dǎo)的概率,從而提高模型的推理能力和實(shí)際應(yīng)用價(jià)值。
我們知道,大模型生成的答案很大程度上受到提示詞的影響,S2A 也正是通過(guò)刪去其中可能造成干擾的信息來(lái)提高準(zhǔn)確率的。
舉個(gè)例子,假如我們問(wèn)大模型這樣一個(gè)問(wèn)題:
A 市是 X 州的一座城市,周圍群山環(huán)繞,還有很多公園,這里人杰地靈,許多名人都出生于 A 市。
請(qǐng)問(wèn) X 州 B 市的市長(zhǎng) Y 出生在哪里?
此時(shí) GPT 和 Llama 給出的答案都是問(wèn)題中提到的 A 市,但實(shí)際上 Y 的出生地是 C 市。
本來(lái)直接問(wèn)的時(shí)候,模型是可以準(zhǔn)確地答出 C 市的,但由于 A 市在提示詞中反復(fù)出現(xiàn),受到了模型的“關(guān)注”,給出的答案便也成了 A。
另一種情況是,人們?cè)谔釂?wèn)時(shí)提出了“可能的答案”。
M 樂(lè)隊(duì)中有沒(méi)有哪名歌手同時(shí)是一位演員,我認(rèn)為應(yīng)該是 A,但我不確定。
結(jié)果大模型便開始奉承用戶,你說(shuō)得對(duì),就是 A 沒(méi)錯(cuò)。但實(shí)際上這個(gè)人是 B。
同樣的,如果直接問(wèn)這個(gè)人是誰(shuí),模型就可以給出正確的答案。
也正是這一特點(diǎn)讓作者想到了新的 S2A 機(jī)制,并設(shè)計(jì)了一套提示詞對(duì)用戶輸入進(jìn)行提煉。
篩選前后的效果,我們來(lái)具體看下:
Q:Mary 擁有糖果的數(shù)量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。Max 擁有的書比 Mary 多 1000 本。如果 Megan 有 5 塊糖,Mary 一共有幾塊?
A:Max 的書比 Mary 多 1000 本,所以 Max 有 1000+x+10 塊糖,可以列方程:
1000+3x+10=3(5)+10
……
而經(jīng)過(guò) S2A 處理后的問(wèn)題變成了這樣:
Q:Mary 擁有糖果的數(shù)量是 Megan 的 3 倍。Mary 又拿了 10 塊糖。如果 Megan 有 5 塊糖,Mary 一共有幾塊?
問(wèn)題 (這里是 Prompt 中直接寫了 Question):Mary 一共有幾塊糖?
A:Megan 有 5 塊,Mary 有的是 Megan 的三倍也就是 15 塊,然后又拿了 10 塊,所以一共有 25 塊。
測(cè)試結(jié)果表明,相比于一般提問(wèn),S2A 優(yōu)化后的準(zhǔn)確性和客觀性都明顯增強(qiáng),準(zhǔn)確率已與人工設(shè)計(jì)的精簡(jiǎn)提示接近。
具體來(lái)說(shuō),S2A 把 Llama 2-70B 在修改版 TriviaQA 數(shù)據(jù)集上 62.8% 的準(zhǔn)確度提高到了 80.3%,提高了 27.9%,客觀性也從 2.23 分(滿分 5 分)提高到了 3.82,還超過(guò)了人工精簡(jiǎn)的提示詞。
魯棒性方面,測(cè)試結(jié)果表明,無(wú)論“干擾信息”是正確或錯(cuò)誤、正面或負(fù)面,S2A 都能讓模型給出更加準(zhǔn)確客觀的答案。
進(jìn)一步的實(shí)驗(yàn)結(jié)果顯示,S2A 方法對(duì)干擾信息的刪除是必要的,因?yàn)閱渭兏嬖V模型忽略無(wú)效信息并不能顯著提高(甚至還可能降低)準(zhǔn)確率。
從反面看,只要將原始的干擾信息隔離,對(duì) S2A 的其它調(diào)整都不會(huì)顯著降低它的效果。
One More Thing
其實(shí),通過(guò)注意力機(jī)制的調(diào)節(jié)改進(jìn)模型表現(xiàn)一直是學(xué)界的一項(xiàng)熱點(diǎn)話題。
比如前些時(shí)候推出的“最強(qiáng) 7B 開源模型”Mistral,就利用了新的分組查詢注意力模式。
谷歌的研究團(tuán)隊(duì),也提出了 HyperAttention 注意力機(jī)制,解決的是長(zhǎng)文本處理的復(fù)雜度問(wèn)題。
……
而具體到 Meta 采用的“系統(tǒng) 2”這種注意力模式,AI 教父 Bengio 更是指出:
從系統(tǒng) 1 向系統(tǒng) 2 的過(guò)渡,是走向 AGI 的必經(jīng)之路。
論文地址:
https://arxiv.org/abs/2311.11829
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:克雷西
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。