IT之家 1 月 25 日消息,IT之家從中國電信人工智能研究院獲悉,其“復(fù)雜推理大模型”TeleAI-t1-preview 現(xiàn)已正式發(fā)布,即將上線天翼 AI 開放平臺。TeleAI-t1-preview 使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方法,通過引入探索、反思等思考范式,大幅提升模型在邏輯推理、數(shù)學(xué)推導(dǎo)等復(fù)雜問題的準(zhǔn)確性。
官方表示,在美國數(shù)學(xué)競賽 AIME 2024 、MATH500 兩項(xiàng)數(shù)學(xué)基準(zhǔn)評測中,TeleAI-t1-preview 分別以 60 和 93.8 分的成績,大幅超越 OpenAI o1-preview、GPT-4o 等標(biāo)桿模型。在研究生級別問答測試 GPQA Diamond 中,TeleAI-t1-preview 得分超過 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水準(zhǔn)。
評測顯示,將《九章算術(shù)》中的一道題目給到 TeleAI-t1-preview 后,其能夠先針對文言文進(jìn)行理解和簡化,再轉(zhuǎn)換成現(xiàn)代漢語,隨之給出數(shù)學(xué)推導(dǎo)和答案。
據(jù)介紹,在此過程中,TeleAI-t1-preview 可將形象思維與抽象思維結(jié)合,對所涉及的場景進(jìn)行具象化思考,輔助理解題目。不僅如此,其還能夠嚴(yán)謹(jǐn)?shù)剡M(jìn)行古今單位換算。
TeleAI 引入了創(chuàng)新的訓(xùn)練策略,從而保障思考推理過程準(zhǔn)確有效。
數(shù)據(jù)準(zhǔn)備階段:收集、構(gòu)建了一個(gè)以數(shù)學(xué)為核心、多學(xué)科為補(bǔ)充的高質(zhì)量推理數(shù)據(jù)集,確保模型能夠適應(yīng)不同類型的推理任務(wù)。
Judge Model(評估模型):訓(xùn)練了一個(gè) Judge Model 專門用于分析和評估模型長思考鏈路的正確性,為模型的反思和錯(cuò)誤修正提供指導(dǎo)。
SFT(監(jiān)督微調(diào))階段:用 MCTS(蒙特卡洛樹搜索)構(gòu)造高質(zhì)量長推理數(shù)據(jù),結(jié)合每個(gè)步驟的準(zhǔn)確率和解決方案長度來選擇最優(yōu)的完整路徑,在保證推理答案準(zhǔn)確性的同時(shí)有效拉長思考鏈路以獲得更細(xì)粒度的推理過程。同時(shí)使用 Judge Model 對推理過程中正確率較低的路徑進(jìn)行分析,引導(dǎo)模型對錯(cuò)誤的推理步驟進(jìn)行反思和修正,從而構(gòu)造出高質(zhì)量的思維鏈數(shù)據(jù)進(jìn)行 SFT 訓(xùn)練。
強(qiáng)化學(xué)習(xí)階段:額外構(gòu)造了 Rule-based Reward Model(基于規(guī)則的獎(jiǎng)勵(lì)模型),以提供足夠準(zhǔn)確的獎(jiǎng)勵(lì)信號,通過在線強(qiáng)化學(xué)習(xí)算法進(jìn)一步提升模型的邏輯推理能力。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。