微軟 rStar-Math 技術(shù)登場：小語言 AI 模型數(shù)學(xué)推理從“不及格”一躍成為“優(yōu)等生”

2025/1/11 12:12:27 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 1 月 11 日消息，微軟亞洲研究院旗下數(shù)學(xué)和人工智能研究團(tuán)隊(duì)昨日（1 月 10 日）發(fā)布博文，針對(duì)小語言模型，設(shè)計(jì)并開發(fā)了 rStar-Math 技術(shù)，專門用于解決數(shù)學(xué)問題。

和微軟之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛樹搜索（Monte Carlo Tree Search）進(jìn)行推理，這種方法模擬了人類逐步解決問題的思維方式，能夠?qū)?fù)雜問題分解成更小的部分，逐步求解。

研究人員要求模型輸出自然語言描述和 Python 代碼形式的“思維鏈”步驟，并將自然語言作為 Python 代碼注釋，僅使用 Python 代碼輸出訓(xùn)練模型。

微軟 rStar-Math 技術(shù)登場：小語言 AI 模型數(shù)學(xué)推理從“不及格”一躍成為“優(yōu)等生”

研究人員訓(xùn)練了一個(gè)“策略模型”生成數(shù)學(xué)推理步驟，并使用“過程偏好模型”（PPM）選擇最有希望的解題步驟。這兩個(gè)模型通過四輪“自我進(jìn)化”互相改進(jìn)，不斷提升性能。

研究人員使用了 74 萬道公開的數(shù)學(xué)應(yīng)用題及其解答作為初始數(shù)據(jù)，并利用上述兩個(gè)模型生成了新的解題步驟。

測試結(jié)果顯示，應(yīng)用 rStar-Math 技術(shù)后，Qwen2.5-Math-7B 模型的準(zhǔn)確率從 58.8% 躍升至 90.0%，將 Phi3-mini-3.8B 從 41.4% 提升到 86.4%，分別比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

微軟 rStar-Math 技術(shù)登場：小語言 AI 模型數(shù)學(xué)推理從“不及格”一躍成為“優(yōu)等生”

研究團(tuán)隊(duì)已在 Hugging Face 上宣布，計(jì)劃將 rStar-Math 的代碼和數(shù)據(jù)在 GitHub 上公開，方便其他研究者使用和改進(jìn)。

IT之家附上參考地址

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
Hugging Face

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟 rStar-Math 技術(shù)登場：小語言 AI 模型數(shù)學(xué)推理從“不及格”一躍成為“優(yōu)等生”

相關(guān)文章