聲稱“媲美人類專家”，谷歌 Gemini 1.5 Pro 數(shù)學(xué)版“提智”：MATH 基準(zhǔn)準(zhǔn)確率 91.1%

2024/5/21 9:03:42 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 5 月 21 日消息，谷歌公司上周發(fā)布技術(shù)報告，表示 Gemini 1.5 Pro 模型在經(jīng)過專門的數(shù)學(xué)領(lǐng)域訓(xùn)練之后，大幅提高了數(shù)學(xué)成績，并成功解決了國際數(shù)學(xué)奧林匹克競賽的部分問題。

谷歌針對數(shù)學(xué)場景有針對性地訓(xùn)練 Gemini 1.5 Pro 模型，并通過 MATH 基準(zhǔn)、美國數(shù)學(xué)邀請考試（ AIME) 和谷歌內(nèi)部的 HiddenMath 基準(zhǔn)進行測試。

根據(jù)谷歌的數(shù)據(jù)，數(shù)學(xué)型 Gemini 1.5 Pro 在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)“與人類專家的表現(xiàn)相當(dāng)”，與標(biāo)準(zhǔn)的非數(shù)學(xué)型 Gemini 1.5 Pro 相比，數(shù)學(xué)型 Gemini 1.5 Pro 在 AIME 基準(zhǔn)測試中解決的問題明顯增多，在其他基準(zhǔn)測試中的得分也有所提高。

聲稱“媲美人類專家”，谷歌 Gemini 1.5 Pro 數(shù)學(xué)版“提智”：MATH 基準(zhǔn)準(zhǔn)確率 91.1%

谷歌官方分享的三個示例中，兩個是由數(shù)學(xué)專用的 Gemini 1.5 Pro 解決的，而一個是由標(biāo)準(zhǔn)的 Gemini 1.5 Pro 變體錯誤解決的。這些問題通常要求解題者回憶代數(shù)中的基本數(shù)學(xué)公式，并依靠它們的分段和其他數(shù)學(xué)規(guī)則得出正確答案。IT之家附上相關(guān)截圖如下：

聲稱“媲美人類專家”，谷歌 Gemini 1.5 Pro 數(shù)學(xué)版“提智”：MATH 基準(zhǔn)準(zhǔn)確率 91.1%

除了問題之外，谷歌還分享了 Gemini 1.5 Pro 基準(zhǔn)測試的重要細(xì)節(jié)。這些數(shù)據(jù)表明，在所有五項基準(zhǔn)測試成績中，Gemini 1.5 Pro 都領(lǐng)先于 GPT-4 Turbo 和亞馬遜的 Claude。

谷歌表示數(shù)學(xué)衍生版 Gemini 1.5 Pro 單個樣本 MATH 基準(zhǔn)準(zhǔn)確率為 80.6%，在對 256 個解決方案進行采樣并選擇一個候選答案時（rm@256），準(zhǔn)確率達到 91.1%。

參考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

聲稱“媲美人類專家”，谷歌 Gemini 1.5 Pro 數(shù)學(xué)版“提智”：MATH 基準(zhǔn)準(zhǔn)確率 91.1%

相關(guān)文章

聲稱“媲美人類專家”，谷歌 Gemini 1.5 Pro 數(shù)學(xué)版“提智”：MATH 基準(zhǔn)準(zhǔn)確率 91.1%