設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟 rStar-Math 技術(shù)登場:小語言 AI 模型數(shù)學(xué)推理從“不及格”一躍成為“優(yōu)等生”

2025/1/11 12:12:27 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 1 月 11 日消息,微軟亞洲研究院旗下數(shù)學(xué)和人工智能研究團(tuán)隊(duì)昨日(1 月 10 日)發(fā)布博文,針對(duì)小語言模型,設(shè)計(jì)并開發(fā)了 rStar-Math 技術(shù),專門用于解決數(shù)學(xué)問題。

和微軟之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛樹搜索(Monte Carlo Tree Search)進(jìn)行推理,這種方法模擬了人類逐步解決問題的思維方式,能夠?qū)?fù)雜問題分解成更小的部分,逐步求解。

研究人員要求模型輸出自然語言描述和 Python 代碼形式的“思維鏈”步驟,并將自然語言作為 Python 代碼注釋,僅使用 Python 代碼輸出訓(xùn)練模型。

研究人員訓(xùn)練了一個(gè)“策略模型”生成數(shù)學(xué)推理步驟,并使用“過程偏好模型”(PPM)選擇最有希望的解題步驟。這兩個(gè)模型通過四輪“自我進(jìn)化”互相改進(jìn),不斷提升性能。

研究人員使用了 74 萬道公開的數(shù)學(xué)應(yīng)用題及其解答作為初始數(shù)據(jù),并利用上述兩個(gè)模型生成了新的解題步驟。

測試結(jié)果顯示,應(yīng)用 rStar-Math 技術(shù)后,Qwen2.5-Math-7B 模型的準(zhǔn)確率從 58.8% 躍升至 90.0%,將 Phi3-mini-3.8B 從 41.4% 提升到 86.4%,分別比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

研究團(tuán)隊(duì)已在 Hugging Face 上宣布,計(jì)劃將 rStar-Math 的代碼和數(shù)據(jù)在 GitHub 上公開,方便其他研究者使用和改進(jìn)。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟AI

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知