IT之家 12 月 14 日消息,“360 智腦”官方公眾號昨日(12 月 13 日)發(fā)布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力顯著提升,在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。
該模型通過合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實現(xiàn)了技術(shù)突破,并在多項權(quán)威評測中取得了優(yōu)異成績。
在多項基礎(chǔ)數(shù)學(xué)評測(如 MATH、高考數(shù)學(xué))以及權(quán)威數(shù)學(xué)競賽(包括 AIME24、AMC23)中,360gpt2-o1 均取得了顯著的成績,不僅超越了前代模型 360gpt2-pro,也優(yōu)于 GPT-4o 模型。
在數(shù)學(xué)競賽評測中,360gpt2-o1 超過了阿里巴巴最新開源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構(gòu)如下:
優(yōu)化合成數(shù)據(jù)
該模型通過指令合成、質(zhì)量 / 多樣性篩選等方法,解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問題,有效擴充了訓(xùn)練數(shù)據(jù)集。
模型后訓(xùn)練
該模型采用兩階段訓(xùn)練策略,先用小模型生成多樣化的推理路徑,再用大模型進行 RFT 訓(xùn)練和強化學(xué)習(xí)訓(xùn)練,提升模型推理能力和反思糾錯能力。
“慢思考”范式
利用蒙特卡洛樹搜索探索多樣化解決方案,并引入 LLM 進行錯誤驗證和糾錯,模擬人類逐步推理和反思的過程,最終形成包含反思、驗證、糾錯和回溯的長思維鏈。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。