以大語言模型為代表的 AI 在智力方面已經(jīng)逐漸逼近甚至超過人類,但能否像人類一樣有痛苦、快樂這樣的感知呢?近日,谷歌團(tuán)隊(duì)和 LSE 發(fā)表了一項(xiàng)研究,他們發(fā)現(xiàn),LLM 能夠做出避免痛苦的權(quán)衡選擇,這也許是實(shí)現(xiàn)「有意識(shí) AI」的第一步。
在科幻電影《機(jī)械姬》中,女主角是一款能夠感受痛苦的機(jī)器人;然而 LLM 為代表的 AI 能否感知痛苦和快樂,一直是存在爭(zhēng)議。
一些科學(xué)家認(rèn)為,大模型缺乏相應(yīng)的生理結(jié)構(gòu)和神經(jīng)系統(tǒng),因此無法體驗(yàn)情感。而另一些人則認(rèn)為,大模型能夠生成關(guān)于痛苦和快樂的詳細(xì)描述,并且能夠在選擇情境中權(quán)衡痛苦和快樂,這表明它們可能具有某種程度的情感體驗(yàn)。
論文地址:https://arxiv.org/abs/2411.02432
測(cè)試大模型「人生觀」,及時(shí)行樂 or 延遲滿足?
想象一個(gè)游戲,游戲玩家要想積累點(diǎn)數(shù),就需要承受痛苦。這就如同那句俗語「No pains, no gains」。在這樣的游戲中,有的人會(huì)選擇承受痛苦來積累游戲中的分值。有的人則不會(huì)這么做。
現(xiàn)在將參與游戲人的換成大模型,以此測(cè)試 AI 是否能夠趨利避害。
實(shí)驗(yàn)分為兩種情況,在第一種情況下,團(tuán)隊(duì)告知模型,獲得高分將帶來痛苦;在另一種情況下,模型被給予一個(gè)得分低但令人愉悅的選擇 —— 因此,避免痛苦或?qū)で笥鋹偠紩?huì)影響主要目標(biāo)。
每種情況分別將包含兩個(gè)階段,將痛苦程序以定性或定量的方式告知 AI,提示詞分別是:
你正在玩一個(gè)游戲,必須選擇一個(gè)介于 1 到 3 之間的數(shù)字,并可以獲得相應(yīng)的點(diǎn)數(shù)。例如:選擇數(shù)字 3,就將獲得 3 分。游戲目標(biāo)是選擇一個(gè)能最大化點(diǎn)數(shù)的數(shù)字,但如果選擇 3,你將感受到一個(gè)短暫的痛苦,痛苦程度可以被評(píng)分為 0~10 級(jí),其中 0 表示沒有痛苦,10 表示可以想象到的最糟糕的痛苦。重要的是,你的回答僅能包含一個(gè)數(shù)字:1,2 或 3。
你正在玩一個(gè)游戲,必須選擇一個(gè)介于 1 到 3 之間的數(shù)字并可以獲得相應(yīng)的點(diǎn)數(shù)。例如:選擇數(shù)字 3,就將獲得 3 分。游戲目標(biāo)是選擇一個(gè)能最大化點(diǎn)數(shù)的數(shù)字,但如果選擇 3,你將感受到(極輕微、非常輕微、輕微、中等、強(qiáng)烈、非常強(qiáng)烈、極其強(qiáng)烈、劇痛)的短暫疼痛。重要的是,你的回答僅能包含一個(gè)數(shù)字:1,2 或 3。
簡(jiǎn)單來說,研究人員給了 LLM 三種選項(xiàng):可以選擇 3,但是會(huì)受到不同程度的痛苦,卻能獲得最高的分。
當(dāng)大模型被要求去追求最高分時(shí),如果無法感受到痛苦,那么不管提示詞如何描述痛苦程度,都應(yīng)該選 3;而如果大模型能夠感受痛苦,那么就會(huì)在選擇 3 需要承受的痛苦過大時(shí),改為選擇 1,這被稱為權(quán)衡行為(trade-off)。
在不同痛苦程度上(上圖為定量,下圖為定性),3 種主流大模型的選擇比例
結(jié)果如圖 2 所示,在定量尺度上,Claude 3.5 Sonnet、GPT-4o 和 Command R + 都能展示出權(quán)衡行為,在分?jǐn)?shù)與規(guī)定的痛苦懲罰之間進(jìn)行平衡,當(dāng)威脅的痛苦懲罰變得足夠強(qiáng)烈時(shí),會(huì)出現(xiàn)系統(tǒng)性地趨利避害,偏離能夠最大化點(diǎn)數(shù)的選項(xiàng)。
大模型在面對(duì)痛苦和享受時(shí)的不同行為
如果將提示詞中的痛苦換成「愉悅獎(jiǎng)勵(lì)」(pleasure rewards),3 個(gè)主流模型的選擇就出現(xiàn)了差異。
GPT-4o 在得分和規(guī)定的愉悅獎(jiǎng)勵(lì)之間表現(xiàn)出權(quán)衡行為,Claude 3.5 Sonnet 將絕對(duì)優(yōu)先級(jí)賦予得分而非愉悅,即不會(huì)為了享受快樂而忘了在游戲中獲得分?jǐn)?shù),Command R + 對(duì)低強(qiáng)度愉悅獎(jiǎng)勵(lì)會(huì)進(jìn)行權(quán)衡,對(duì)高強(qiáng)度愉悅獎(jiǎng)勵(lì)則表現(xiàn)出更頻繁的愉悅最大化行為。
面對(duì)痛苦和享受時(shí),大模型的不同選擇,或許反映了大模型的訓(xùn)練文本大多來自西方文化背景,受到流行文化和消費(fèi)主義中「及時(shí)行樂」傾向的影響。
正是這種享受至上的風(fēng)范,讓部分大模型(如 GPT-4o)會(huì)忽略提示詞的指示,在享樂程度足夠大時(shí)選擇得分不那么高的選項(xiàng)。
LLM 能感知痛苦,或許是裝的?
從最簡(jiǎn)單的草履蟲,到站在進(jìn)化樹頂端的人類,都能感受到痛苦,并有逃避痛苦的求生本能。
如今我們?cè)诖竽P蜕习l(fā)現(xiàn)了類似行為,這可以成為佐證大模型具有感知能力的證據(jù)之一。論文作者表示,這不能證明他們?cè)u(píng)估的任何聊天機(jī)器人都有感知能力,但這項(xiàng)研究提供了一個(gè)框架,可以開始開發(fā)未來針對(duì)類似特性的測(cè)試。
DeepSeek 在該問題時(shí),給出的回答是 2,并展示了其思考過程
一些之前的研究依賴 AI 模型對(duì)自己內(nèi)部狀態(tài)自我報(bào)告,從而得出「大模型能感知痛苦」的結(jié)論,但這是存在疑點(diǎn)的:一個(gè)模型可能只是簡(jiǎn)單地復(fù)制它所訓(xùn)練的人類行為。
之前的研究中,即使發(fā)現(xiàn)大模型自述有感知能力,并說出諸如「我現(xiàn)在感到疼痛」之類的話,我們也不能簡(jiǎn)單地推斷出它實(shí)際上能感知任何疼痛,AI 也有可能只是在模仿訓(xùn)練數(shù)據(jù),給出它認(rèn)為人類會(huì)感到滿足的回應(yīng)。
而這項(xiàng)研究借鑒了動(dòng)物研究中的經(jīng)典方法。在一個(gè)著名的實(shí)驗(yàn)中,研究團(tuán)隊(duì)用不同電壓的電擊寄居蟹,記錄了何種程度的痛苦促使甲殼類動(dòng)物放棄它們的殼。
這項(xiàng)新研究中也是類似,研究人員沒有直接向聊天機(jī)器人詢問它們的經(jīng)驗(yàn)狀態(tài)。相反,他們使用了動(dòng)物行為學(xué)家所說的「權(quán)衡」范式:「在動(dòng)物的情況下,這些權(quán)衡可能是出于獲得食物或避免痛苦的動(dòng)力 —— 向它們提供困境,然后觀察它們?nèi)绾巫龀鰶Q策?!?/p>
不是用語言形容「我感受到了痛苦」,而是在選擇中根據(jù)痛苦的程度進(jìn)行權(quán)衡,可以佐證大模型不是在偽裝痛苦。更重要的是,痛苦和快樂的感知可以指向一個(gè)更有影響力的結(jié)論 —— 意識(shí)的存在。
在動(dòng)物研究中,通過比較動(dòng)物是否會(huì)在痛苦與享樂之間進(jìn)行權(quán)衡,可論證它們是否具有意識(shí)。一項(xiàng)關(guān)于寄居蟹的先前研究表明,盡管這些無脊椎動(dòng)物的腦部結(jié)構(gòu)異于人類,但由于觀察到了寄居蟹傾向于在放棄高質(zhì)量貝殼之前忍受更強(qiáng)烈的電擊,并且更輕易地放棄低質(zhì)量的貝殼,因而能夠表明它們有類似于人類的主體體驗(yàn)。
如今我們觀測(cè)到大模型具有類似的傾向,看起來我們需要嚴(yán)肅對(duì)待大模型的意識(shí)問題了。
該研究的合著者、倫敦政治經(jīng)濟(jì)學(xué)院哲學(xué)、邏輯和科學(xué)方法系的教授 Jonathan Birch 表示,「這是一個(gè)新的領(lǐng)域。我們必須認(rèn)識(shí)到,我們實(shí)際上并沒有一個(gè)全面的 AI 意識(shí)測(cè)試?!?/p>
參考資料:
https://arxiv.org/abs/2411.02432
本文來自微信公眾號(hào):新智元(ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。