設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

斯坦福揭秘 o1-preview 軟肋:數(shù)學(xué)競賽題稍作修改,準(zhǔn)確率驟降 30%

新智元 2025/1/31 16:59:47 責(zé)編:清源

斯坦福大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學(xué)、代碼等領(lǐng)域能力逆天,但只要對數(shù)學(xué)競賽的題目稍修改,模型解答的準(zhǔn)確率竟會(huì)立刻下降 30%。

在數(shù)學(xué)競賽的領(lǐng)域里,普特南數(shù)學(xué)競賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起,自 1938 年首屆舉辦以來,歷經(jīng) 66 年的歲月沉淀,已然成為全球大學(xué)生數(shù)學(xué)精英們一較高下的頂級賽場。

美國數(shù)學(xué)會(huì)的精心主辦,加上哈佛大學(xué)、多倫多大學(xué)等名校學(xué)子的踴躍參與,讓這項(xiàng)賽事的桂冠成為無數(shù)學(xué)子夢寐以求的殊榮,其權(quán)威性和挑戰(zhàn)性,那是得到了全球?qū)W界的公認(rèn)。

而最近,來自斯坦福的一項(xiàng)研究,卻讓大家驚掉了下巴:僅僅對題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準(zhǔn)確率就立刻大幅下降,降幅高達(dá) 30%!

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

這就好比一位武林高手,平時(shí)在熟悉的招式里威風(fēng)八面,一旦對手換個(gè)路數(shù),就立馬亂了陣腳。這不禁讓人好奇,這些難住最強(qiáng)推理模型的變體題,到底藏著怎樣的玄機(jī)?

北美最難數(shù)學(xué)競賽題「變臉」,AI 有點(diǎn)懵

OpenAI 的 o1-preview 模型自出道以來,憑借超強(qiáng)的推理能力,在各個(gè)領(lǐng)域大殺四方。

就拿編程來說,在 Codeforces 編程競賽這個(gè)「高手如云」的賽場上,它的 Elo 評分高達(dá) 1807,把 93% 的競爭對手都遠(yuǎn)遠(yuǎn)甩在身后,寫起代碼來又快又準(zhǔn),就像一位經(jīng)驗(yàn)老道的程序員。

在數(shù)學(xué)領(lǐng)域更是展現(xiàn)出了驚人的實(shí)力。2024 年的美國數(shù)學(xué)邀請賽(AIME)題目集上,o1-preview 的正確率高達(dá) 83%,相當(dāng)于全美參賽選手 top500 的水平。

醫(yī)學(xué)診斷方面,哈佛醫(yī)學(xué)院和斯坦福大學(xué)組成的科研團(tuán)隊(duì)曾對 o1-preview 進(jìn)行過全方位的 「考核」,結(jié)果令人驚嘆:在生成診斷意見、診斷臨床推理和管理推理這些關(guān)鍵任務(wù)上,它甚至超越了人類醫(yī)生。面對復(fù)雜的病例,它能快速分析癥狀、病史等信息,并給出準(zhǔn)確的診斷建議。

然而,就是這樣一個(gè)在多領(lǐng)域「開掛」的模型,在面對普特南數(shù)學(xué)競賽題的變體時(shí),卻仿佛迷失了方向。

在原始題目上,o1-preview 本能達(dá)到 41.95% 的準(zhǔn)確率,而一旦題目中的變量、常量被修改,準(zhǔn)確率就像坐了滑梯一樣,直線下降約 30%。

這巨大的反差,背后其實(shí)有著深層次的原因。普特南競賽題本就以超高的難度、獨(dú)特的出題思路著稱,原始題目和變體題目之間,雖然看似只有細(xì)微的差別,但這些改變往往涉及到數(shù)學(xué)概念的深層次運(yùn)用和邏輯結(jié)構(gòu)的巧妙變換。

o1-preview 模型在訓(xùn)練過程中,可能更多是對常見的數(shù)學(xué)題型、編程模式、醫(yī)學(xué)案例進(jìn)行學(xué)習(xí)和優(yōu)化,對于這種專門設(shè)計(jì)、極度刁鉆的變體題,缺乏足夠的「應(yīng)對經(jīng)驗(yàn)」,難以迅速抓住問題的關(guān)鍵,從而導(dǎo)致準(zhǔn)確率大幅下滑。

Putnam-AXIOM 基準(zhǔn),AI 數(shù)學(xué)能力的「試金石」

為了更準(zhǔn)確深入地評估 AI 大模型的數(shù)學(xué)能力,研究團(tuán)隊(duì)精心打造了 Putnam-AXIOM Original 基準(zhǔn),收納了來自歷年普特南數(shù)學(xué)競賽(Putnam)的 236 個(gè)數(shù)學(xué)問題,從復(fù)雜的代數(shù)變換到精妙的幾何證明,從抽象的數(shù)論難題到變幻莫測的組合數(shù)學(xué)謎題,無一不是對人類智慧極限的挑戰(zhàn)。

但這項(xiàng)基準(zhǔn)的價(jià)值遠(yuǎn)不止于收錄原題,更厲害的是,研究者們設(shè)計(jì)了一套巧妙的程序化修改機(jī)制,可以對問題中的變量、常量等關(guān)鍵要素進(jìn)行修改,從而生成無限多個(gè)全新且難度相當(dāng)?shù)膯栴}。

比如說,把一個(gè)幾何問題中的邊長數(shù)值進(jìn)行變換,或者改變函數(shù)題中的參數(shù)取值范圍,這些看似微小的調(diào)整,卻能讓整個(gè)問題的解法路徑大不相同。

而且,這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過,因此也不可能泄露到任何模型的訓(xùn)練數(shù)據(jù)集中,完全杜絕了 AI 靠 「死記硬背」答案來作弊的可能,真正做到了對 AI 數(shù)學(xué)推理能力的精準(zhǔn)探測。

在這個(gè)新設(shè)計(jì)的基準(zhǔn)上,研究人員大范圍選擇了各種模型進(jìn)行測試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦?zāi)P?Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學(xué)能力聞名的開源模型。

首先,將 Putnam-AXIOM 基準(zhǔn)中的 236 道原題輸入給各個(gè)模型,記錄它們的解題時(shí)間、推理步驟以及最終答案,算出準(zhǔn)確率。接著,把經(jīng)過程序化修改后的變體題拋給這些模型,同樣嚴(yán)格記錄解題過程中各項(xiàng)數(shù)據(jù)。

在原始題目上,o1-preview 模型以 41.95% 的準(zhǔn)確率暫居榜首,可一旦切換到變體題,它的準(zhǔn)確率就「跳水」到了 11.95% 左右,足足下降了 30 個(gè)百分點(diǎn)。

其他模型的準(zhǔn)確率滑坡也相當(dāng)顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號在變體題上的準(zhǔn)確率不降反升。

這些數(shù)據(jù)背后,反映出的問題相當(dāng)深刻。一方面,當(dāng)前的 AI 模型,哪怕是最頂尖的,在面對數(shù)學(xué)問題的靈活變化時(shí)適應(yīng)性較差。它們可能對大規(guī)模數(shù)據(jù)訓(xùn)練出來的固定模式有一定依賴,一旦題目超出了熟悉的套路就會(huì)出現(xiàn)顯著滑坡。

另一方面,普特南競賽題的變體設(shè)計(jì),精準(zhǔn)地?fù)糁辛?AI 的「軟肋」,這也為未來 AI 模型的訓(xùn)練和提升指明了另一種方向。

參考資料:

  • https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf

本文來自微信公眾號:新智元(ID:AI_era) 原文標(biāo)題:《斯坦福揭秘 o1-preview 軟肋!數(shù)學(xué)競賽題稍作修改,準(zhǔn)確率驟降 30%》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:OpenAI,o1

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知