IT之家 1 月 11 日消息,微軟亞洲研究院旗下數(shù)學(xué)和人工智能研究團(tuán)隊(duì)昨日(1 月 10 日)發(fā)布博文,針對(duì)小語言模型,設(shè)計(jì)并開發(fā)了 rStar-Math 技術(shù),專門用于解決數(shù)學(xué)問題。
和微軟之前推出的 Phi-4 不同,rStar-Math 采用蒙特卡洛樹搜索(Monte Carlo Tree Search)進(jìn)行推理,這種方法模擬了人類逐步解決問題的思維方式,能夠?qū)?fù)雜問題分解成更小的部分,逐步求解。
研究人員要求模型輸出自然語言描述和 Python 代碼形式的“思維鏈”步驟,并將自然語言作為 Python 代碼注釋,僅使用 Python 代碼輸出訓(xùn)練模型。
研究人員訓(xùn)練了一個(gè)“策略模型”生成數(shù)學(xué)推理步驟,并使用“過程偏好模型”(PPM)選擇最有希望的解題步驟。這兩個(gè)模型通過四輪“自我進(jìn)化”互相改進(jìn),不斷提升性能。
研究人員使用了 74 萬道公開的數(shù)學(xué)應(yīng)用題及其解答作為初始數(shù)據(jù),并利用上述兩個(gè)模型生成了新的解題步驟。
測試結(jié)果顯示,應(yīng)用 rStar-Math 技術(shù)后,Qwen2.5-Math-7B 模型的準(zhǔn)確率從 58.8% 躍升至 90.0%,將 Phi3-mini-3.8B 從 41.4% 提升到 86.4%,分別比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。
研究團(tuán)隊(duì)已在 Hugging Face 上宣布,計(jì)劃將 rStar-Math 的代碼和數(shù)據(jù)在 GitHub 上公開,方便其他研究者使用和改進(jìn)。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。