IT之家 5 月 21 日消息,谷歌公司上周發(fā)布技術(shù)報告,表示 Gemini 1.5 Pro 模型在經(jīng)過專門的數(shù)學(xué)領(lǐng)域訓(xùn)練之后,大幅提高了數(shù)學(xué)成績,并成功解決了國際數(shù)學(xué)奧林匹克競賽的部分問題。
谷歌針對數(shù)學(xué)場景有針對性地訓(xùn)練 Gemini 1.5 Pro 模型,并通過 MATH 基準(zhǔn)、美國數(shù)學(xué)邀請考試( AIME) 和谷歌內(nèi)部的 HiddenMath 基準(zhǔn)進行測試。
根據(jù)谷歌的數(shù)據(jù),數(shù)學(xué)型 Gemini 1.5 Pro 在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)“與人類專家的表現(xiàn)相當(dāng)”,與標(biāo)準(zhǔn)的非數(shù)學(xué)型 Gemini 1.5 Pro 相比,數(shù)學(xué)型 Gemini 1.5 Pro 在 AIME 基準(zhǔn)測試中解決的問題明顯增多,在其他基準(zhǔn)測試中的得分也有所提高。
谷歌官方分享的三個示例中,兩個是由數(shù)學(xué)專用的 Gemini 1.5 Pro 解決的,而一個是由標(biāo)準(zhǔn)的 Gemini 1.5 Pro 變體錯誤解決的。這些問題通常要求解題者回憶代數(shù)中的基本數(shù)學(xué)公式,并依靠它們的分段和其他數(shù)學(xué)規(guī)則得出正確答案。IT之家附上相關(guān)截圖如下:
除了問題之外,谷歌還分享了 Gemini 1.5 Pro 基準(zhǔn)測試的重要細(xì)節(jié)。這些數(shù)據(jù)表明,在所有五項基準(zhǔn)測試成績中,Gemini 1.5 Pro 都領(lǐng)先于 GPT-4 Turbo 和亞馬遜的 Claude。
谷歌表示數(shù)學(xué)衍生版 Gemini 1.5 Pro 單個樣本 MATH 基準(zhǔn)準(zhǔn)確率為 80.6%,在對 256 個解決方案進行采樣并選擇一個候選答案時(rm@256),準(zhǔn)確率達到 91.1%。
參考
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。