設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

360gpt2-o1 上線:“會思考”的國產(chǎn)大模型,探索 AI 推理新極限

2024/12/14 10:43:50 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 有鯽雪狐 的線索投遞!

IT之家 12 月 14 日消息,“360 智腦”官方公眾號昨日(12 月 13 日)發(fā)布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力顯著提升,在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。

該模型通過合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實現(xiàn)了技術(shù)突破,并在多項權(quán)威評測中取得了優(yōu)異成績。

在多項基礎(chǔ)數(shù)學(xué)評測(如 MATH、高考數(shù)學(xué))以及權(quán)威數(shù)學(xué)競賽(包括 AIME24、AMC23)中,360gpt2-o1 均取得了顯著的成績,不僅超越了前代模型 360gpt2-pro,也優(yōu)于 GPT-4o 模型。

在數(shù)學(xué)競賽評測中,360gpt2-o1 超過了阿里巴巴最新開源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構(gòu)如下:

優(yōu)化合成數(shù)據(jù)

該模型通過指令合成、質(zhì)量 / 多樣性篩選等方法,解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問題,有效擴充了訓(xùn)練數(shù)據(jù)集。

模型后訓(xùn)練

該模型采用兩階段訓(xùn)練策略,先用小模型生成多樣化的推理路徑,再用大模型進行 RFT 訓(xùn)練和強化學(xué)習(xí)訓(xùn)練,提升模型推理能力和反思糾錯能力。

“慢思考”范式

利用蒙特卡洛樹搜索探索多樣化解決方案,并引入 LLM 進行錯誤驗證和糾錯,模擬人類逐步推理和反思的過程,最終形成包含反思、驗證、糾錯和回溯的長思維鏈。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:360,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知