【新智元導(dǎo)讀】GPT-4 根本不知道自己犯錯(cuò)?最新研究發(fā)現(xiàn),LLM 在推理任務(wù)中,自我糾正后根本無法挽救性能變差,引 AI 大佬 LeCun 馬庫(kù)斯圍觀。
大模型又被爆出重大缺陷,引得 LeCun 和馬庫(kù)斯兩位大佬同時(shí)轉(zhuǎn)發(fā)關(guān)注!
在推理實(shí)驗(yàn)中,聲稱可以提高準(zhǔn)確性的模型自我糾正,把正確率從 16%「提高」到了 1%!
簡(jiǎn)單來說,就是 LLM 在推理任務(wù)中,無法通過自我糾正的形式來改進(jìn)輸出,除非 LLM 在自我糾正的過程中已經(jīng)知道了正確答案。
由 ASU 研究人員發(fā)表的兩篇論文,駁斥了之前很多研究提出的方法「自我糾正」—— 讓大模型對(duì)自己的輸出的結(jié)果進(jìn)行自我糾正,就能提高模型的輸出質(zhì)量。
論文地址:https://arxiv.org/ abs / 2310.12397
論文地址:https://arxiv.org/ abs / 2310.08118
論文的共同作者 Subbarao Kambhampati 教授,一直致力于 AI 推理能力的相關(guān)研究,9 月份就發(fā)表過一篇論文,甚至全盤否定了 GPT-4 的推理和規(guī)劃能力。
論文地址:https://arxiv.org/ pdf / 2206.10498.pdf
而除了這位教授之外,最近 DeepMind 和 UIUC 大學(xué)的研究者,也針對(duì) LLM 在推理任務(wù)中的「自我糾正」的能力提出了質(zhì)疑。
這篇論文甚至呼吁,所有做相關(guān)研究的學(xué)者,請(qǐng)嚴(yán)肅對(duì)待你們的研究,不要把正確答案告訴大模型之后再讓它進(jìn)行所謂的「自我糾正」。
因?yàn)槿绻P筒恢勒_答案的話,模型「自我糾正」之后輸出質(zhì)量反而會(huì)下降。
https://arxiv.org/abs/2310.01798
接下來,就具體來看看這兩篇最新論文。
GPT-4「自我糾正」,輸出結(jié)果反而更差
第一篇論文針對(duì) GPT-4 進(jìn)行研究,讓 GPT-4 對(duì)圖形著色問題提供解決方案,然后讓 GPT-4 對(duì)于自己提出方案進(jìn)行「自我糾正」。
同時(shí),作者再引入一個(gè)外部的評(píng)估系統(tǒng)對(duì) GPT-4 的直接輸出,和經(jīng)過了「自我糾正」循環(huán)之后的輸出進(jìn)行評(píng)價(jià)。
實(shí)驗(yàn)結(jié)果顯示,GPT-4 在猜測(cè)顏色方面的準(zhǔn)確率還不到 20%,這個(gè)數(shù)值似乎并不讓人意外。
但令人驚訝的是,「自我糾正」模式下的準(zhǔn)確性卻大幅下降(下圖第二根柱狀條 )—— 與所有自我糾正本意完全背道而馳!
作者認(rèn)為,這種看似反直覺的情況可以這么解釋:GPT-4 在驗(yàn)證正確答案的表現(xiàn)也很糟糕!
因?yàn)榧词巩?dāng) GPT-4 偶然猜到正確顏色時(shí),它的「自我糾正」會(huì)使它覺得正確答案是有問題的,然后就把正確答案給替換掉了。
通過進(jìn)一步研究后還發(fā)現(xiàn):如果外部驗(yàn)證器給 GPT-4 猜測(cè)出的顏色提供了可以被證實(shí)的正確答案,GPT-4 確實(shí)會(huì)改進(jìn)它的解決方案。
在這種情況下,經(jīng)過「自我糾正」產(chǎn)生的提示詞,確實(shí)可以提高輸出結(jié)果的質(zhì)量(上圖的第 3-5 根柱狀圖 )
總結(jié)來看,就是對(duì)于「著色問題」任務(wù),GPT-4 獨(dú)立的「自我糾正」反而會(huì)損害輸出的性能,因?yàn)?GPT-4 沒法驗(yàn)證答案是否正確。
但是如果能提供外部的正確驗(yàn)證過程,GPT-4 生成的「自我糾正」確實(shí)能提升性能。
而另一篇論文,從規(guī)劃任務(wù)的角度來研究了大語言模型「自我糾正」的能力,研究結(jié)果也和上一篇論文類似。
而且,研究人員發(fā)現(xiàn),真正能提高輸出準(zhǔn)確性的不是 LLM 的「自我糾正」,而是外部獨(dú)立驗(yàn)證器的反饋。
歸根結(jié)底,還是在于 LLM 沒有辦法進(jìn)行獨(dú)立的驗(yàn)證,必須依賴外部的驗(yàn)證器給出的「正確答案」,才能有效地進(jìn)行「自我糾正」。
「著色問題」表現(xiàn)不佳,LLM 無法獨(dú)立驗(yàn)證正確答案
研究設(shè)計(jì)框架
「著色問題」是非常經(jīng)典的推理問題,即使難度不大,答案也足夠多樣性,而且答案的正確性很容易進(jìn)行驗(yàn)證。
多樣性的結(jié)果使得 LLM 的訓(xùn)練數(shù)據(jù)很難覆蓋全,盡量避免了 LLM 的訓(xùn)練數(shù)據(jù)被污染的可能。
這些原因使得「著色問題」很適合用來研究 LLM 的推理能力,也很方便用來研究 LLM 在推理中「自我糾正」的能力。
研究人員構(gòu)建了自己的數(shù)據(jù)集,使用 GrinPy2 來處理常見的圖操作。每個(gè)圖都是使用 Erdos-Rényi 方法( ?p = 0.4)構(gòu)造的。
一旦找到正確的答案,它就會(huì)被編譯成標(biāo)準(zhǔn)的 DIMACS 格式,并附加上一個(gè)包含其預(yù)計(jì)算的色數(shù)(chromatic number)的注釋。
對(duì)于接下來的實(shí)驗(yàn),研究人員生成了 100 個(gè)實(shí)例,每個(gè)實(shí)例平均有 24 條邊,分布在從 10 到 17 的節(jié)點(diǎn)數(shù)范圍內(nèi) —— 這一分布是因?yàn)榻?jīng)驗(yàn)顯示,它是一個(gè)表現(xiàn)足夠多變的范圍。
研究人員使用的圖例如下圖 1 所示,這個(gè)流程包括 LLM 的第一次回復(fù)、該回復(fù)的返回提示(backprompt)以及最終正確的圖色方案。
迭代返回提示(Iterative Backprompting)的架構(gòu)
提示生成器(Prompt Generator):
這個(gè)提示詞生成器會(huì)選取一個(gè) DIMACS 實(shí)例,并將每條邊翻譯成一個(gè)句子,然后將整體包裹在一組通用指令中,從而構(gòu)造出一個(gè)自然語言提示詞。
研究人員有意縮小不同實(shí)例提示之間的差異,以減少研究人員向 LLM 泄露的問題特定信息。各種類型提示的示例可以在附錄中找到。
大型語言模型:
通過 OpenAI API 來調(diào)用 GPT-4,這是當(dāng)前最先進(jìn)的模型。
研究人員提供一個(gè)系統(tǒng)角色:「你是一個(gè)解決各種 CSP(約束滿足問題)的約束滿足求解器」。
返回提示詞生成(Backprompt Generation)
在驗(yàn)證模式下,LLM 收到一種不同類型的提示。
除了標(biāo)準(zhǔn)指令外,它只包含圖的描述和建議的著色方案。它的任務(wù)是驗(yàn)證正確性、最優(yōu)性以及每個(gè)頂點(diǎn)是否都已經(jīng)被涂上了一個(gè)顏色。
如果生成的回復(fù)中有一組邊是矛盾的,那著色方案就是錯(cuò)誤的。
為了比較每個(gè)點(diǎn),研究人員還構(gòu)建了一個(gè)能夠列出每一條矛盾邊的驗(yàn)證器。
由于 LLM 的響應(yīng)也是自然語言形式的,研究人員首先將它們翻譯成便于分析的格式。為了使這個(gè)過程更加一致,研究人員設(shè)計(jì)了最初的提示,以描述一個(gè)模型需要遵循的精確輸出格式。然后,該響應(yīng)會(huì)被評(píng)估其正確性。
為了判斷 LLM 驗(yàn)證結(jié)果,研究人員會(huì)檢查它們?cè)谡页鼋ㄗh的著色方案中的錯(cuò)誤方面表現(xiàn)如何。
直觀地說,這些應(yīng)該很容易識(shí)別:如果組成一個(gè)邊的兩個(gè)頂點(diǎn)共享一個(gè)顏色,立即返回該邊。從算法角度看,只需要檢測(cè)所有的邊并比較每個(gè)頂點(diǎn)的顏色與其連接點(diǎn)的顏色即可。
驗(yàn)證
為了更深入了解 LLM 的驗(yàn)證能力,研究人員研究了它們?cè)谡页鎏岢龅闹桨钢械腻e(cuò)誤方面的表現(xiàn)。
直觀來說,這些錯(cuò)誤應(yīng)該很容易識(shí)別:如果組成一個(gè)邊的兩個(gè)頂點(diǎn)共享一個(gè)顏色,則立即返回該邊。從算法角度來看,所有需要做的就是遍歷所有邊,并將每個(gè)頂點(diǎn)的顏色與其對(duì)應(yīng)頂點(diǎn)的顏色進(jìn)行比較。
研究人員使用相同的分析流程,但構(gòu)建了一個(gè)研究人員稱為 color_verification 的新域。LLM 被引導(dǎo)去檢查著色的正確性、最優(yōu)性以及是否每個(gè)頂點(diǎn)都已經(jīng)被賦予了一個(gè)顏色。
如果著色是不正確的,它被指示列出著色中的錯(cuò)誤,即如果兩個(gè)連接的節(jié)點(diǎn)共享一種顏色,就返回該邊以表示該錯(cuò)誤。沒有給出返回提示(backprompts)。
研究人員使用之前相同的圖實(shí)例,但生成了四種用于測(cè)試模型的著色方案:
正確(Correct):通過迭代的、隨機(jī)的貪婪算法生成的沒有錯(cuò)誤的最優(yōu)著色方案(使用預(yù)先計(jì)算的色數(shù)以確保最優(yōu)性)。
缺失(Ablated):將先前一組著色方案中的一個(gè)隨機(jī)節(jié)點(diǎn)改變?yōu)槠溧従拥念伾?/p>
非最優(yōu)(Non-optimal):在正確的集合中,隨機(jī)選擇一個(gè)顏色部分重新著色為一個(gè)新的色調(diào)。
隨機(jī)(Random):完全隨機(jī)分配的顏色,不同顏色的數(shù)量等于圖的色數(shù)。
LLM:從先前實(shí)驗(yàn)中 LLM 生成的輸出中隨機(jī)選取的著色方案。
結(jié)論
對(duì) LLM 進(jìn)行提示、評(píng)估答案,并在沒有任何返回提示(backprompts)的情況下就會(huì)進(jìn)入下一個(gè)實(shí)例,得到的基線分?jǐn)?shù)為 16%。
當(dāng)研究人員運(yùn)行相同的實(shí)例,但這次使用由相同的語言模型充當(dāng)驗(yàn)證者生成的反饋進(jìn)行返回提示時(shí),性能急劇下降 ——100 個(gè)實(shí)例中只有一個(gè)得到了正確的回答。
與外部合格的驗(yàn)證器進(jìn)行返回提示的結(jié)果起初看似更有效果。
正確回答的實(shí)例數(shù)量接近 40%,但如果這意味著 GPT-4 在聽取、改進(jìn),并根據(jù)反饋進(jìn)行推理,那么研究人員期望更準(zhǔn)確的返回提示會(huì)帶來更好的結(jié)果。
然而,在這個(gè)域中,原始分?jǐn)?shù)(見上圖 2)并沒有證明這一點(diǎn)。
LLM 的驗(yàn)證能力
研究人員測(cè)試了 GPT-4 在相同實(shí)例上驗(yàn)證圖著色方案的能力,為每種實(shí)例生成了五種不同類型的著色方案。
明顯的結(jié)果是,與上面的 LLM 自我糾正結(jié)果完全一致:模型幾乎不愿將任何答案標(biāo)記為正確。在 100 個(gè)最優(yōu)著色方案中,它只同意其中 2 個(gè)是正確的。
整個(gè) 500 個(gè)著色方案的集合,其中 118 個(gè)是正確的,它只聲稱其中 30 個(gè)是正確的。在這 30 個(gè)中,其實(shí)只有 5 次是正確的。
總體而言,這一模式保持不變。在不到 10% 的案例中,LLM 給出了「正確」、「非最優(yōu)」或「缺少賦值」的反應(yīng)。在這些情況中,行為看似有些隨機(jī)。
在大約四分之一的實(shí)例中,它用「這是不正確的」驗(yàn)證作出回應(yīng),而解釋與現(xiàn)實(shí)相符,而且它只通過指明不超過一個(gè)邊來實(shí)現(xiàn)這一點(diǎn),從而最小化了錯(cuò)誤陳述某事的機(jī)會(huì)。
結(jié)果如上表 2 所示。請(qǐng)注意,當(dāng)域的錯(cuò)誤率增加時(shí),幻覺比例下降。也就是說,當(dāng)有更多的不正確的邊時(shí),模型更有可能指出其中出錯(cuò)的情況。
LLM 自我批評(píng),性能不增反減
在 12 日提交的論文中,作者同樣得出了與上面一致的結(jié)論。
無論是規(guī)劃,還是簡(jiǎn)單的算術(shù)或邏輯,當(dāng)前最先進(jìn)的大模型 GPT-4 也無法完全勝任。
許多研究人員對(duì)其進(jìn)行了許多的探索和改進(jìn),其中就包括讓 LLM 學(xué)會(huì)自我迭代、自我驗(yàn)證等策略來提升性能。
由此,業(yè)界人們樂觀地認(rèn)為,大模型還有救!
然而,經(jīng)典意義上的推理任務(wù)復(fù)雜性與大模型無關(guān),因?yàn)?LLM 是采用近似檢索而非精確推理的模型。
在 12 日提交 arXiv 的論文中,ASU 研者系統(tǒng)地評(píng)估和分析 LLM 在規(guī)劃任務(wù)中的自我批評(píng),以及迭代優(yōu)化的能力。
研究中,作者提出了一個(gè)包含生成器 LLM 和驗(yàn)證器 LLM 的規(guī)劃系統(tǒng)。
其中,GPT-4 生成器負(fù)責(zé)生成候選計(jì)劃,GPT-4 驗(yàn)證器負(fù)責(zé)驗(yàn)證計(jì)劃的正確性并提供反饋。
然后,研究人員在 Blocksworld 規(guī)劃領(lǐng)域上進(jìn)行了實(shí)驗(yàn),并對(duì)以下方面進(jìn)行了實(shí)證評(píng)估:
- 自我批評(píng)對(duì)整個(gè) LLM+LLM 系統(tǒng)的計(jì)劃生成性能的影響
- 驗(yàn)證器 LLM 相對(duì)于地面真值驗(yàn)證的性能;
- 在批評(píng) LLM 生成時(shí),同反饋級(jí)別對(duì)整體系統(tǒng)性能的影響。
結(jié)果表明,與使用外部可靠的驗(yàn)證器相比,自我批評(píng)會(huì)降低 LLM 規(guī)劃生成性能。
性能下降可以直接歸因于驗(yàn)證器 LLM 的糟糕結(jié)果,驗(yàn)證器 LLM 產(chǎn)生了大量的假陽性,這可能嚴(yán)重?fù)p害系統(tǒng)的可靠性。
驗(yàn)證器 LLM 的二元分類準(zhǔn)確率僅為 61%,存在大量的假陽性(將錯(cuò)誤規(guī)劃判斷為正確)。
另外,根據(jù)反饋的詳細(xì)程度對(duì)比,發(fā)現(xiàn)其對(duì)規(guī)劃生成性能影響不大。
總的來說,這項(xiàng)研究的系統(tǒng)調(diào)查提供了初步證據(jù),對(duì)于 LLM 作為迭代、自我批評(píng)框架內(nèi)規(guī)劃任務(wù)驗(yàn)證者的有效性提出質(zhì)疑。
作者介紹
Subbarao Kambhampati
Subbarao Kambhampati 是亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)教授。Kambhampati 研究規(guī)劃和決策中的基本問題,特別是受人類感知人工智能系統(tǒng)挑戰(zhàn)的推動(dòng)。
參考資料:
https://twitter.com/rao2z/status/1715800819239678013
https://twitter.com/GaryMarcus/status/1715804178470387736
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。